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长 期 以 来 ， 科 学 家 与 科幻 作家 一 直 梦 想 着 人 类 能 够 制造 出 智能 机 器 ， 而 这 种 智能 机 器 首先 

能 够 对 视觉 信息 进行 理解 。 本 书 详细 讨论 了 从 图 像 自动 抽取 重要 信息 的 理论 和 技术 ， 把 利用 
计算 机 视觉 技术 解 问题 的 重要 研究 内 容 汇 集 到 一 起 。 随 着 计算 机 技术 的 最 新 发 展 ， 计 算 机 
像 已 经 成 为 一 种 经 济 灵活 的 技术 手段 ， 并 已 渗透 到 各 行 各 业 。 图 像 计算 不 再 只 属于 科学 研究 令 
域 ， 也 属于 艺术 领域 、 社 会 科学 领域 ， 甚 至 成 为 人 们 的 业余 爱好 。 

本 书 适合 作为 计算 机 及 相关 专业 的 高 年 级 本 科 生 和 研究 生 的 教材 ， 也 适合 相关 技术 人 员 参 
考 。 本 书 英文 版 被 美国 华盛顿 大 学 等 高 等 院 校 采用 为 教材 。 
本 书 特点 

o 除了 传统 内 容 外 ， 增 加 了 图 像 数据 库 、 虚 拟 现实 和 增强 现实 方面 的 内 容 

o 介绍 了 两 个 运用 计算 机 视觉 技术 的 实际 系统 

o 应 用 面 涉及 工业 、 医 学 、 地 产 、 多 媒体 及 计算 机 绘图 

e 内 含 大 量 习 题 和 编程 项 目 ， 以 及 大 量 极 具 说 服 力 的 图 片 

© 书 中 提供 大 量 相关 网 站 ， 包 括 额外 图 像 档案 文件 、 图 像 处 理 代码 和 幻灯 片 等 





作 = 是 华盛顿 大 学 计算 机 科学 与 工程 学 教授 及 电子 工程 学 教授 。 她 
z Linda G. Shapiro 于 1974 年 在 六 多 下 大 学 获得 计算 机 科学 博 十 学位. MEENT 
斯 州立 大 学 、 维 吉 尼 亚 工学 院 、 维 吉 尼 亚 州立 大 学 任教 ， 并 在 国际 机 器 视觉 组 织 负责 智能 系统 方面 
加 的 工作 。Shapiro 教授 曾经 是 /mage Understanding 杂志 的 主编 ， 是 Computer Vision per Image 
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Understanding 以 及 Pattern Recognition 杂 志 的 编 委 。 她 与 Robert M. Haralick 一 起 合 写 了 Computer 
and Robot Vision 一 书 。1995 年 她 当选 为 IEEE 会 士 ，2000 年 当选 为 模式 识别 国际 协会 的 会 士 。 


于 1977 年 在 马里 兰 大 学 获 计算 机 科学 博士 学 位 。1982 年 


George C. Stockman 至 仿 是 密 欧 根 州立 大 学 计算 机 科学 与 工程 专业 的 教授 


讲授 编程 、 数 据 结 构 、 计算 机 视觉 和 计算 机 图 形 学 课程， Stockman 教 授 参 与 了 IEEE 组 织 的 多 项 活 
动 ， 包 括 图 像 计算 教学 方面 的 讨论 会 。 
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本 书 系统 地 介绍 了 计算 机 视觉 方面 的 基础 知识 ， 详 细 讨论 了 从 图 像 自动 抽取 重要 信息 的 
相关 理论 ， 内 容 包括 最 近 出 现 的 研究 成 果 。 本 书 取 材 新 颖 精练 ， 重 点 突出 ， 以 解决 实际 问题 
为 目的 。 前 11 章 讨论 的 是 2D 情 况 ; 第 12 章 到 第 15 章 从 2D 情 况 扩 展 到 3D 情 况 ; 第 16 章 介绍 了 
利用 计算 机 视觉 技术 的 实际 应 用 系统 。 书 中 的 大 量 实例 及 习题 ， 贴 近 生 活 ， 面 向 应 用 ， 富 有 
情趣 。 

本 书 适合 作为 高 等 院 校 计算 机 及 相关 专业 的 高 年 级 本 科 生 和 研究 生 的 教材 ， 也 可 供 相关 
技术 人 员 参 考 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 梨 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 轩 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书” 已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
”进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 和 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系 列 "。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国 家 信息 安全 视 评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. LT., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 上 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课 程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : i 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 序 


本 书 系统 阐述 了 计算 机 视觉 的 相关 理论 和 应 用 技术 基础 ， 内 容 广泛 ， 深 入 浅 出 ， 列 举 了 
大 量 习 题 和 应 用 实例 ， 不 仅 适合 作为 高 年 级 本 科 生 和 研究 生 的 教材 ， 也 适合 作为 相关 领域 研 
究 人 员 和 工程 技术 人 员 的 参考 资料 。 

本 书 内 容 涉及 计算 机 视觉 的 各 个 方面 ， 很 多 内 容 参 考 了 近期 的 研究 成 果 ， 取 材 新 颖 精练 ， 
重点 突出 ， 并 以 解决 实际 问题 为 目的 。 书 中 列 出 了 很 多 算法 ， 都 以 函数 或 者 过 程 的 形式 给 出 ， 
读者 只 需 用 自己 熟悉 的 编程 语言 稍 加 修改 ， 即 可 实现 这 些 算法 。 书 中 的 大 量 实例 及 习题 贴近 
生活 ， 面 向 应 用 ， 富 有 情趣 。 另 外 ， 在 每 章 后 面 列 出 了 大 量 参考 文献 ， 这 些 文 献 不 仅 能 够 帮 
助 读者 巩固 所 学 的 内 容 ， 而 且 方 便 读者 在 自己 感 兴趣 的 方向 上 进行 更 深入 的 研究 。 

本 书 由 赵 清 杰 、 钱 芳 、 蒙 利 栋 共同 翻译 。 共 中 楷 利 栋 教授 翻译 了 第 1、2 章 的 内 容 ， 钱 芳 
博士 负责 第 4、5、7、8、10 章 的 翻译 工作 ， 赵 清 杰 博士 翻译 了 其 余部 分 并 负责 全 书 的 统 稿 工 
作 。 参 与 本 书 翻译 的 还 有 宋 徘 、 王 宗 远 等 ， 在 此 对 他 们 的 工作 表示 感谢 。 

由 于 译 者 水 平 有 限 ， 加 上 时 间 仓 促 。 译 稿 中 难免 有 错误 和 遗漏 ， 谨 向 读者 和 原作 者 表示 
HR, FUGUE: zhaoqingjie@tsinghua.org.cn。 


赵 清 杰 
2004 年 9 月 于 北京 


ne 


ae = 
E= 

本 书 系 统 地 介绍 了 计算 机 视觉 方面 的 基础 知识 ， 内 容 适 合 于 从 事 视觉 领域 研究 的 广大 读 
者 。 书 中 详细 讨论 了 从 图 像 自 动 抽取 重要 信息 的 理论 知识 ， 并 列举 了 很 多 应 用 实例 ， 为 从 事 
这 方面 学 习 和 研究 的 学 生 及 科研 工作 者 提供 帮助 。 该 书 不 仅 是 专业 技术 人 员 的 一 本 实用 参考 
资料 ， 更 适合 作为 高 年 级 本 科 生 和 研究 生 的 教材 。 本 书 主要 介绍 基本 概念 与 算法 ， 对 当前 迅 
速 发 展 的 视觉 应 用 领域 也 进行 了 论述 。 本 书 的 独特 之 处 在 于 ， 第 8 章 的 图 像 数据 库 以 及 第 15 章 
的 虚拟 现实 和 增强 现实 ， 这 两 部 分 是 迅速 发 展 的 最 新 应 用 领域 。 第 16 章 简单 介绍 了 利用 计算 
机 视觉 技术 的 实际 应 用 系统 。 

随 着 计算 机 技术 的 最 新 发 展 ， 计 算 机 图 像 已 经 成 为 一 种 经 济 灵活 的 技术 手段 ， 并 渗透 到 
各 行 各 业 。 图 像 计 算 不 再 只 属于 科学 研究 领域 ， 也 属于 艺术 领域 、 社 会 科学 领域 ， 甚 至 成 为 
人 们 的 业余 爱好 。 这 本 书 适合 有 专业 背景 和 正在 进行 专业 学 习 的 相关 人 员 ， 包 括 对 多 媒体 、 
艺术 设计 、 地 理 信息 系统 和 图 像 数 据 库 感 兴趣 的 读者 ， 以 及 传统 的 自动 化 、 图 像 科 学 、 医 学 
成 像 、 远 程 感知 和 计算 机 绘图 等 领域 的 读者 。 

要 使 书 的 内 容 面 面 俱 到 是 不 可 能 的 。 微 积分 、 物 理学 和 常规 计算 等 方面 的 内 容 ， 已 有 专 
门 的 相关 教材 。 我 们 希望 本 书 不 仅 可 以 作为 教材 ， 同 时 又 能 对 一 般 读者 有 所 帮助 。 本 书 所 选 
内 容 新 颖 有 趣 ， 相 信 大 多 数 读者 都 能 够 看 懂 。 作 为 研究 生 或 高 年 级 本 科 生计 算 机 视觉 课程 的 
教材 使 用 时 ， 应 把 参考 文献 作为 课程 的 补充 材料 。 每 章 后面 都 列 出 了 适当 数量 的 参考 文献 ， 
但 并 没有 包括 全 部 文献 。 . 

前 面 各 章 首先 介绍 底层 基本 知识 ， 并 逐步 过 渡 到 数学 模型 部 分 。 目 的 是 为 了 在 涉及 图 像 
特征 之 前 ， 让 大 家 先 有 一 个 直观 性 的 了 解 。 标 注 “*” 的 部 分 需要 更 多 的 数学 知识 或 者 难度 更 
深 ， 在 专业 性 不 强 的 课程 中 可 以 不 讲 这 些 内 容 。 为 了 加 强直 观 性 理解 ,在 前 面 的 11 章 里 ， 我 
们 一 直 在 讨论 二 维 (2D) 图 像 ， 到 了 后 面 几 章 才 开始 讨论 三 维 (3D) 计算 机 视觉 。 有 经 验 的 
教师 可 以 针对 不 同 课程 和 教学 风格 ， 重 新 安排 各 章 的 讲解 顺序 。2D 图 像 处 理 有 很 多 用 处 ， 许 
多 概念 和 算法 在 2D 情 况 下 讲解 起 来 更 容易 理解 。 第 4 章 介绍 模式 识别 方面 的 基本 知识 ， 使 学 生 
在 全 面 掌 担 图 像 特 征 和 匹配 之 前 ， 对 完整 的 识别 系统 有 所 了 解 。 学 完 第 4 章 之 后 ， 读 者 会 对 2D 
图 像 处 理应 用 有 更 深入 的 理解 。 第 5、6 和 7 章 是 有 关 灰 度 、 颜 色 和 纹理 特征 的 内 容 。 第 8 章 介 
绍 图 像 数 据 库 方面 的 知识 ， 这 是 一 个 较 新 的 研究 内 容 。 一 些 同 仁 建议 把 这 部 分 内 容 放 在 书 的 
末尾 ， 我 们 把 它 安排 得 稍微 靠 前 ， 目 的 是 为 了 强化 前 面 几 章 中 的 有 关 概 念 ， 以 及 为 学 期 中 间 
的 课程 作业 提供 素材 。 第 10 和 11 章 讲 的 是 图 像 分 割 与 匹配 ， 主 要 针对 的 是 2D 情 况 ， 不 涉及 复 
杂 的 3D 变 换 ， 这 样 可 使 基本 概念 描述 起 来 更 加 简单 。 

关于 3D 特 征 ， 在 第 2 章 做 了 介绍 ， 在 第 12 章 进行 了 详细 讨论 。 第 12 章 综述 了 从 2D 图 像 恢 
复 3D 世 界 的 多 方面 内 容 ， 包 括 立体 视觉 的 量化 模型 ， 由 焦距 变化 恢复 深度 的 薄 透 镜 模 型 ， 以 
及 分 辨 力 的 概念 。 第 13 章 介绍 3D 计 算 机 视觉 变换 ， 教 学 过 程 中 发 现 这 个 问题 对 学 生来 说 难度 
较 大 。 关 于 齐 次 变换 的 内 容 安排 在 这 一 章 内 ， 而 没有 放 到 附录 中 。3D 变 换 是 对 第 11 章 中 2D 简 
单 情况 的 推广 。 最 小 二 乘 拟 合 也 从 第 11 章 的 2D 简 单 情况 推广 到 第 13 章 的 3D 情 况 。 本 章 介绍 了 


Vill 


P3P 非 线性 优化 方法 ， 并 用 于 进行 摄像 机 标定 ， 包 括 建 立 镜头 的 径 向 畸变 模型 。 第 14 章 讨论 的 
是 3D 模 型 以 及 模型 与 3D 数 据 的 匹配 ,这 部 分 难度 更 大 。 第 15 章 讨论 虚拟 现实 和 增强 现实 技术 ， 
以 及 计算 机 视觉 在 其 中 扮演 的 重要 角色 。 
编程 语言 问题 

本 书 不 依赖 任何 编程 语言 ， 而 是 使 用 了 通用 算法 符号 。 用 特定 语言 编写 不 仅 没 有 必要 ， 
而 且 对 许多 读者 来 说 也 不 合适 。 对 会 编程 的 学 生来 说 实现 这 些 算法 并 不 困难 ， 这 一 点 在 我 们 
的 学 生 身 上 已 得 到 证 明 。 在 适当 和 可 能 的 时 候 ， 相 关 例 子 会 公布 在 WWW 上 ， 一 方面 是 为 了 
让 学 生 能 够 快 点 儿 进 行 实验 ， 另 一 方面 也 使 他 们 能 够 学 习 编 写 代 码 。 

教师 和 学 生 可 以 利用 软件 工具 和 程序 库 ， 例 如 Khoros、NIH-Image、XView、gimp 和 
MATLAB 等 软件 工具 ， 也 可 以 从 生产 视觉 硬件 设备 的 公司 购买 现成 的 程序 包 。 作 者 在 书 中 没有 
用 专用 软件 ， 因 为 多 数 读者 使 用 不 同 的 软件 工具 ， 另 外 工业 专用 软件 具有 复杂 的 数据 结构 和 
算法 ， 用 这 种 软件 工具 进行 图 像 运算 达 不 到 预期 的 学 习 目 的 。 在 简单 环境 下 掌握 了 算法 的 基 
本 原理 之 后 ， 读 者 在 选用 专用 软件 工具 时 就 会 得 心 应 手 。 
如 何 使 用 本 书 

教师 和 学 生 可 以 根据 课程 的 目的 和 兴趣 有 选择 地 学 习 书 中 的 内 容 ， 也 可 以 打 乱 书 中 的 章 
节 顺 序 。 以 下 内 容 仅 供 参 考 : 

。 第 2 章 简 介 ， 第 3 章 作为 重点 

在 数据 结构 和 算法 课程 中 至 少 需要 1~3 讲 。 在 第 2 章 的 背景 知识 基础 上 ， 第 3 章 内 容 包括 对 
2D 图 像 阵列 、 深 度 优 先 搜索 以 及 并 查 数据 结构 等 的 应 用 和 编程 练习 。 

。 第 1、2、3 章 和 第 4、5、6 章 中 的 部 分 内 容 

大 学 生 做 课程 设计 时 ， 这 部 分 内 容 可 选 讲 1 ~ 3 周 。 要 求 他 们 写 出 简单 的 学 期 报告 或 者 设计 
一 个 小 项 目 ， 项 目 可 以 是 建立 2D 零 件 识别 系统 ， 利 用 连通 成 分 和 特征 向 量 原型 匹配 方面 的 知识 。 

。 第 1~11 章 的 大 部 分 内 容 

作为 地 理学 、 自 然 资 源 或 微生物 学 学 生 的 选修 课 ， 可 以 不 讲 其 中 带 “*” 的 选 学 部 分 。 如 
果 作 为 本 科 生 的 图 像 处 理 与 分 析 课 程 ， 第 1~11 章 的 大 部 分 内 容 都 应 该 讲 到 。 

。 书 中 的 大 部 分 内 容 

对 于 相关 专业 的 高 年 级 本 科 生 或 者 研究 生 ， 要 用 一 学 期 的 时 间 学 习 计 算 机 视觉 这 门 课 。 
而 本 书 内 容 用 一 个 学 期 是 讲 不 完 的 ， 部 分 内 容 可 以 不 讲 或 只 做 简单 介绍 ， 后 面 的 习题 也 可 以 
只 做 一 部 分 。 如 果 是 半 个 学 期 的 本 科 生 课程 ， 第 1~4、6~12 和 14 章 内 容 应 该 介绍 ， 这 些 内 容 可 
使 学 生 对 计算 机 视觉 有 比较 深 的 了 解 。 如 果 是 半 个 学 期 的 研究 生 课程 ,第 1~4 章 内 容 可 做 简 
单 介绍 ， 第 6~14 章 应 该 重点 讲解 ， 第 15 章 选 讲 主要 内 容 。 如 果 是 研究 生 课程 ， 应 该 增加 参考 
文献 中 的 有 关内 容 。 

感谢 与 我 们 有 同样 兴趣 的 同事 、 教 师 和 学 生 ， 他 们 为 本 书 做 了 大 量 的 贡献 ， 并 把 自己 的 
研究 成 果 拿 出 来 与 大 家 分 享 。 许 多 人 为 这 本 书 的 出 版 提供 了 无 私 的 帮助 ， 他 们 不 断 鼓励 我 们 ， 
贡献 自己 的 想法 、 图 表 和 算法 等 ， 书 中 都 做 了 引用 说 明 。 几 位 审 稿 人 和 同事 提供 的 宝贵 意见 
对 本 书 的 改进 帮助 很 大 。 特别 感谢 Mohammad Ghavamzadeh、Nick Dutta, Kevin Bowyer, 
Adam Clark, Yu-Yu Chou, Habib Abi-Rached 和 Valentin Razmov， 他 们 对 书 中 的 文字 做 了 认 
真 修改 。 我 们 对 书 中 的 任何 错误 负责 ， 在 以 后 的 版 本 中 将 进行 改正 。 
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这 本 书 撰写 了 四 年 。 感 谢 Addison Wesley-Longman 的 Paul Becker， 他 在 这 个 过 程 中 做 了 
许多 指导 性 工作 。 感 谢 Prentice Hall 的 Tom Robbins ， 因 为 他 使 本 书 得 以 顺利 出 版 。 感 谢 Cathy 
Davison 和 Lorraine Evans， 他 们 一 直 在 对 很 多 案例 进行 跟踪 研究 。 感 谢 ICC 的 Rose Rummel- 
Eury 和 Chanda Wakefield ， 他 们 认真 修改 了 书 中 的 符号 和 语言 ， 并 推进 计划 的 顺利 进行 。 编 
写 这 本 书 任务 繁重 ， 好 在 我 们 有 一 个 训练 有 素 和 幽默 的 团队 。 
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图 61 

(AB) 老虎 在 草地 上 的 自然 色 图 像 

( 右 图 ) 由 于 闫 色 的 改变 ， 对 老虎 的 识别 变 得 不 太 可 靠 ， 也 许 是 只 站 在 地 毯 上 的 家 猫 ? 〈 原 图 经 Corel Stock 
Photos 许 可 ) 






图 6-9 


(AL) 输入 的 RGB 图 像 (中 图 ) 饱和 度 S$ 增 加 40% (HE) 饱和 度 S 降 低 20% (Frank Biocca 提供 ) 


Rocket Center 
AD 





图 6-10 从 左边 的 彩色 图 像 中 分 割 出 白色 像素 。 白 色 像 素 的 单个 连通 成 
分 用 第 3 章 的 颜色 算法 任意 标记 (David Moore 提 供 分 析 ) 





图 6-11 彩色 图 像 及 其 64 箱 格 的 直方 图 (直方 图 由 A. Vailaya 提 供 ， 图 片 经 Corel Stock Photos 许 可 ) 
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| 
图 6-12 通过 训练 得 到 的 皮肤 颜色 类 别 。 水 平 轴 是 Rw， 垂直 轴 是 G4。t_4 类 是 主要 的 人 脸 | 
颜色 ，t_5 和 t_6 是 次 要 的 人 脸 类 ,它们 与 人 脸 上 的 阴影 和 胡须 区 域 有 关 (V. Bakic 提 | 
供 ) | 


i 
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图 6-13 人 脸 抽取 实例 (图 像 由 V. Bakic 提 供 ) i 


ER) 输入 图 像 (中 图 ) 标记 图 像 ( 右 图 ) 抽取 的 人 脸 区 域 的 边界 








b) 分 割 成 4 个 类 别 





| d) 分 割 成 4 个 类 别 
c) 原 图 





e) ME f) 分 制 成 3 个 类 别 


图 7-8 利用 Laws 纹 理 能 量 测度 分 割 图 像 ( 原 图 来 自 Corel Stock Photos 和 MIT 媒 体 
实验 室 VisTex 数 据 库 ) 





a) 雷诺 阿 的 绘画 b) 紫 水 晶 图 像 
图 8-1 数字 图 像 示例 ( 皮 埃 尔 : 奥 古 斯 特 : 雷诺 阿 的 绘画 ，Beaulieu 的 风景 ，1893， 经 
旧金山 精品 艺术 博物 馆 许 可 ，Mildred Anna Williams Wei, 1944.9, Fe 7k in AUR 
经 Smithsonian 学 院 许可 ，1992) 





view full size | view full size 


图 8-3 基于 颜色 分 布 相似 性 的 QBIC 检 索 结果 。 查 询 图 像 是 位 于 左上 角 的 图 像 (Egames 提 供 ) 
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图 84 基于 颜色 百 分 Images 1-8 out of 50 
比 的 QBIC 检 索 一 -一 ees Ti 
结果 。 查 询 定 | 
义 为 40% 的 红 
色 、30% 的 黄 
色 和 10% 的 黑 
色 (Egames 提 
供 ) | 


iew full size 


view full size | view full size | view full size | view full size 
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图 8-5 图 像 库 检索 结果 ， 其 中 查询 图 像 是 涂 色 的 栅 格 (图 像 来 自 MIT 媒 体 实验 室 的 

| VisTex Bc Hi 42 :shttp: //vismod.www.media.mit.edu/vismod/imagery/ 
| 
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图 8-6 基于 纹理 相似 性 的 图 像 库 检索 结果 (来 自 MIT 媒 体 实验 室 的 VisTex 数 据 库 : 


http://vismod.www.media.mit .edu/vismod/imagery/VisionTexture 


/vistex.html) 











图 8-7 弹性 匹配 图 像 检 
索 结 果 (Alberto 


Del Bimbo 提 供 ) | 
| 
| 
i 
i 
| 
i 
1 
| 
| 
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a) 用 户 提 人 





b) 两 幅 检索 出 来 的 图 像 





c) 另外 两 幅 检索 出 来 的 图 像 ， 包 含 两 匹 马 


共 的 查询 形状 




















原 图 分 割 图 符号 表示 


图 8-9 从 图 像 中 抽取 目标 和 空间 关系 并 用 于 检索 ( 原 图 像 经 Corel Stock Photos 许 可 ) 





图 9-6 算法 9.3 的 应 用 结果 。 左 边 是 nm 时 刻 的 图 像 ， 右 边 是 带 有 运动 分 析 结 果 的 2 时 刻 的 图 像 。 
红色 方 框 表示 原始 邻 域 的 位 置 ， 是 对 左 图 运用 兴趣 算 子 检测 得 出 的 。 蓝 色 方 框 表 示 右 
图 中 与 左 图 最 佳 匹配 的 邻 域 。 三 组 绿 线 是 表示 运动 向 量 ， 分 别 对 应 三 个 运动 目标 。 最 
左边 的 目标 向 下 偏 右 一 点 的 方向 运动 ， 最 下 面 的 目标 向 右 偏 下 一 点 的 方向 运动 ， 最 右 
边 的 目标 向 左 偏 上 一 点 的 方向 运动 (分 析 由 Adam T. Clark 提 供 ) 














图 10-1 
(Fc) 橄榄 球 图 像 
E) 分 割 成 区 域 的 图 像 。 每 个 区 域 是 颜色 相似 的 连通 像素 集合 





图 10-4 
) EKES 
(AG) 利用 K 均 值 聚 类 ， 得 到 k = 6 种 不 同 灰 度 的 聚 类 结果 。6 个 聚 类 对 应 6 种 颜色 : 深 绿色 、 绿 色 、 深 蓝 色 、 白 
色 、 银 色 和 黑色 








图 10-5 


(Fe) 橄榄 球 图 像 
( 右 ) 利用 isodata 聚 类 ， 得 到 K = 5 种 不 同 灰 度 的 聚 类 结果 。5 个 聚 类 对 应 5 种 颜色 : 绿色、 深蓝 色 、 和 白色、 银色 和 





黑色 


图 15-17 


) 小 狗 模 型 的 座 度 图 像 
(43) 6 付 近 视点 的 三 幅 真 彩色 视 
图 像 
( 右 ) 对 视图 像素 进行 加 权 得 到 
的 绘制 图 像 (Kari Pulli 提 
供 ) 








gOS 





图 15-18 Hbi HERM E AE AY ic HEE RE VE (LZ EKR, TAKERE E 
的 绘制 图 像 ， 而 不 需 构 造 目标 的 全 三 维 模型 (Kari Pulli 提 供 
( 左 ) 可 能 的 视点 (中 上 ) 某 视点 对 应 的 深度 图 像 
(右上 ) 同一 视点 对 应 的 彩色 图 像 (中 下 ) 根据 深度 数据 建立 的 网 格 寞 型 
i 下 ) 把 彩色 数据 纹理 映射 到 网 格 模型 得 到 的 绘制 图 像 





图 15-19 由 于 目标 的 部 件 太 薄 ， 用 同样 的 技术 建立 全 三 维 模型 几乎 是 不 可 能 的 (Kari 
Pulli 提 供 ) 


: : 幅 不 同 的 目标 彩色 图 像 
把 三 幅 原 始 图 像 的 像素 映射 到 新 的 视点 ， 产 生 不 同 视点 的 三 幅 新 图 像 


) 
下 ) 
a 最 后 的 绘制 图 像 ， 三 幅 新 图 像 的 加 权 结 果 
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第 章 绪论 


计算 机 视觉 的 研究 内 容 非常 广泛 ， 本 书 对 计算 机 视觉 所 涉及 的 方方面面 都 人 敌 了 介绍 。 毫 
无 疑问 ， 人 类 能 够 制造 出 具有 视觉 功能 的 机 器 。 例 如 ， 进 行 瑕 症 检 测 的 机 器 ， 每 天 要 检测 上 
百 万 根 电灯 灯丝 和 很 多 织物 ; 自动 柜员 机 (ATM) 已 经 能 够 通过 对 人 眼 的 扫描 实现 身份 识 
Al; 利用 摄像 信息 ， 计 算 机 能 够 驾驶 汽车 。 这 一 章 介绍 利用 计算 机 视觉 提供 解决 方案 的 几 个 
重要 的 问题 领域 。 读 过 本 章 之 后 ， 大 家 对 一 些 应 用 问题 和 计算 机 视觉 的 方法 就 会 有 比较 全 面 
的 了 解 9。 

定义 1 ”计算 机 视觉 的 研究 目标 是 ， 根 据 感 测 到 的 图 像 对 实际 物体 和 场景 做 出 有 意义 

的 判定 。 

为 了 对 实际 物体 做 出 判定 ， 总 是 需要 根据 图 像 来 构造 它 的 某 个 描述 或 模型 。 因 此 专家 们 
会 说 计算 机 视觉 的 目标 是 根据 图 像 来 构造 出 对 场景 的 描述 。 尽 管 我 们 研究 的 内 容 是 面向 实际 
问题 的 ， 但 也 要 讨论 原理 性 问题 。 本 章 提 到 的 并 且 将 在 后 面 章 节 中 进行 讨论 的 问题 包括 : 

感 测 : 传感器 是 如 何 获得 外 部 世界 图 像 的 ? 图 像 是 如 何 对 外 部 特征 (如 材料 、 形 状 、 照 
明 以 及 空间 关系 ) 进行 编码 的 ? 

信息 编码 : 为 了 理解 三 维 世 界 ， 如 何 由 图 像 得 出 相关 信息 ， 包 括 物 体 的 几何 特征 、 纹 理 
特征 、 运 动 特征 和 身份 特征 ? 

表示 : 在 计算 机 中 如 何 表示 物体 的 部 件 、 属 性 和 关系 ? 

算法 : 用 什么 方法 进行 图 像 信息 处 理 ， 以 及 建立 对 世界 和 其 中 目标 的 描述 ? 

这 些 问 题 以 及 其 他 一 些 问题 都 将 在 后 续 章 节 中 进行 研究 。 下 面 介 绍 几 种 应 用 ， 以 及 据 此 
提出 的 一 些 重要 的 问题 。 


1.1 机 器 视觉 


科学 家 与 科幻 作家 一 直 梦 想 着 人 类 能 够 制造 出 智能 机 器 ， 而 这 种 智能 机 器 首先 要 能 够 对 可 
视 世 界 进行 理解 。 人 脑 中 有 很 多 组 织 参与 视觉 信息 处 理 。 人 类 能 够 轻而易举 地 处 理 许多 视觉 
问题 ， 可 是 视觉 认 知 作为 一 个 过 程 ， 大 部 分 人 却 知 之 甚 少 。Aian Turing ， 现 代数 字 计 算 机 与 
人 工 智能 两 个 领域 的 莫 基 人 之 一 ， 相 信和 数字 计 算 机 可 具备 理解 场景 的 智慧 和 能 力 。 这 样 的 远 
大 目标 已 经 证 明 难 以 实现 ， 人 类 的 工程 技术 还 不 能 与 我 们 丰富 的 想象 力 相 匹配 。 但 在 某 些 研 
究 领域 已 经 产生 了 令 人 惊奇 的 进展 。 虽 然 本 书 的 主题 是 建造 实用 系统 而 非 人 工 智能 ， 但 我 们 
将 不 时 思考 更 深层 次 的 问题 ， 只 要 有 可 能 我 们 就 向 大 家 介绍 最 新 的 研究 进展 。 举 例 来 说 ， 考 
虑 下 面 可 能 在 随后 几 年 之 内 实现 的 情景 : 你 家 门口 的 摄像 机 摄取 图 像 并 输入 到 你 家 的 计算 机 
中 去 ， 某 些 人 物 对 你 来 说 很 重要 ， 你 用 这 些 人 脸 对 计算 机 进行 了 识别 训练 。 你 往 家 庭 信息 中 
心 挂 电话 时 ， 计 算 机 不 仅 向 你 报告 所 记录 的 电话 信息 ， 而 且 报告 说 你 妹妹 Elenor 和 报 童 Chad 可 


O 在 本 书 中 ,我 们 认为 “机 器 视觉 ”和 “计算 机 视觉 ”这 两 个 术语 是 一 样 的 。 不 过 对 于 工业 应 用 ， 我 们 常用 
“机 器 视觉 ”， 而 -- 般 情况 下 常用 “计算 机 视觉 ”。 
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能 到 家 拜访 你 。 在 本 书 中 的 多 个 地 方 ， 我 们 都 会 讨论 到 类 似 这 样 的 具有 前 沿 性 的 研究 思想 。 


1.2 应 用 问题 
计算 机 在 图 像 分 析 中 的 应 用 实际 上 是 无 止境 的 。 这 里 只 包括 几 个 方面 的 应 用 ， 但 对 于 我 
们 的 研究 动机 和 研究 方向 的 确定 将 起 到 很 好 的 作用 。 


1.2.1 See 

一 幅 数 字 图 像 可 以 表示 一 帧 动画 、 一 页 文本 、 一 张 人 脸 、 一 幅 加 德 满 都 市 的 地 图 或 者 导 
购 清单 中 的 一 件 物 品 。 数 字 图 像 包 含 固定 的 像素 (pixel) 行 数 与 列 数 ， 像 素 是 图 像 元 素 
(picture element) 的 缩写 。 像 素 就 像 小 方块 ， 其 数值 范围 通常 在 0 到 255 之 间 ， 像 素 值 表示 图 
像 上 各 点 的 亮度 。0 表 示 最 暗 、255 表 示 最 亮 ， 或 者 反 过 来 255 表 示 最 暗 、0 表 示 最 亮 ， 这 与 编 
码 方案 有 关 。 图 1-1 的 左上 图 是 一 张 人 脸 数字 图 像 ， 高 257 行 、 宽 172 列 。 中 上 图 是 一 幅 8 x 8 的 
子 图 像 ， 取 自 左 上 图 中 的 右 眼 部 位 。 下 部 的 64 个 数 ， 表 示 子 图 像 中 各 像素 的 亮度 。 子 图 右上 
角 的 像素 值 低 于 100， 表 示 眼 中 的 黑色 瞳孔 区 域 ， 而 子 图 中 较 高 的 像素 值 表示 眼 白 部 分 。 彩 色 
图 像 的 每 个 像素 会 有 3 个 数值 ， 分 别 表 示 红 、 蓝 、 绿 。 数 字 图 像 通常 用 显示 器 显示 ， 一 般 是 带 
数字 图 像 存储 器 的 电视 屏幕 。 一 幅 500 x 500 的 彩色 图 像 大 致 相当 于 某 一 时 刻 电 视 显 示 的 画面 。 
激发 发 光 材 料 的 一 个 小 点 就 显示 一 个 像素 。 彩 色 显 示 则 需要 激发 不 同 材 料 的 3 个 邻 点 。 高 分 辩 
率 的 计算 机 显示 器 大 致 有 1200 x 1000 个 像素 。 对 数字 图 像 更 详细 的 讨论 在 第 2 章 进 行 ， 而 数字 
图 像 的 编码 和 颜色 解释 将 在 第 6 章 讨 论 。 
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图 1-1 左上 图 是 人 脸 图 像 ， 中 上 图 是 右 眼 区 域 的 8 x 8 像素 子 图 像 右上 图 是 
计算 机 程序 检测 到 的 眼睛 位 置 ， 下 面 是 8 x 8 子 图 像 的 亮度 值 (图像 由 
Vera Bakic 提 供 ) 
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1.2.2 查询 图 像 数 据 库 

海量 数字 存储 、 高 带宽 传送 和 多 媒体 个 人 计算 机 促进 了 图 像 数据 库 的 发 展 。 有 效 使 用 现 有 
的 众多 图 像 需要 采用 合适 的 检索 方法 。 标 准 数据 库 技术 适 用 于 加 注 文本 关键 字 的 图 像 ， 而 基于 
内 容 (content-based) 的 检索 方法 是 当前 研究 的 一 个 热点 问题 。 假 定 一 个 新 公司 要 设计 一 个 新 
徽标 并 进行 保护 ， 艺 术 家 已 经 设计 出 几 种 方案 供 公司 选择 。 如 果 徽 标 与 某 个 现 有 公司 的 徽标 太 
相似 是 不 能 用 的 ， 所 以 要 对 现 有 的 徽标 数据 库 进行 检索 。 这 个 过 程 类 似 于 专利 检索 ， 是 由 人 工 
完成 的 ， 这 时 机 器 视觉 方法 就 可 以 派 上 大 用 场 (参见 图 1-2)。 有 许多 与 此 类 似 的 问题 。 假 设 建 
筑 师 或 艺术 史学 家 寻找 具有 特殊 入口 的 建筑 物 ， 希 望 只 提供 一 张 图 片 ， 也 许 就 是 取 自 数据 库 的 
图 片 ， 要 求 系统 能 够 输出 其 他 相似 的 图 片 。 在 第 8 章 中 ， 你 将 看 到 如 何 用 几何 、 颜 色 和 纹理 特 
征 进行 图 像 数 据 库 查询 。 假 如 广告 代理 商 想 搜索 幼儿 享受 美味 的 图 片 ， 理 解 其 中 的 语义 对 人 类 
而 言 非常 简单 ， 但 对 机 器 视觉 来 说 也 许 是 个 难度 很 高 的 问题 。 表 征 “ 幼 儿 ”、 SRB” «Bop? 
需要 综合 应 用 颜色 、 纹 理 和 几何 特征 。 顺 便 说 一 句 ， 现 在 已 经 有 人 设计 出 判断 某 幅 彩 图 中 是 否 
含有 裸体 人 物 的 算法 。 对 于 那些 想 对 子女 从 网 上 下 载 的 图 片 进行 审查 的 父母 来 说 ， 这 个 计算 机 
算法 是 有 用 处 的 。 图 像 数 据 库 检 索 方 法 在 第 8 章 进 行 讨论 。 





图 1-2 示例 查询 。 左 图 是 查询 图 像 ， 右 图 是 从 图 像 数据 库 系统 中 
检索 出 的 最 相似 的 两 幅 图 像 (东京 图 片 社 提供 ) 


1.2.3 检查 交叉 支撑 杆 上 的 螺 孔 

70 年 代 后 期 ， 密 尔 沃 基 的 一 位 工程 师 为 卡车 公司 设计 了 一 套 机 器 视觉 系统 ， 成 功 地 计算 
出 卡车 交叉 支撑 杆 上 的 螺 孔 数目 。 卡车 公司 要 求 所 有 的 交叉 支撑 杆 在 装运 前 必须 经 过 检查 ， 
因为 在 未 装配 完 的 卡车 上 如 果 少 一 个 螺 孔 ， 将 造成 代价 不 非 的 损失 : 要 么 迫使 装配 线 停止， 
重新 钻 孔 ; 要 么 出 现 更 糟糕 的 情况 ， 即 工人 为 了 使 生产 线 正常 运转 可 能 不 安装 必要 的 螺栓 。 
为 获得 卡车 交叉 支撑 杆 的 数字 图 像 ， 把 光源 放 在 传送 带 下 方 ， 数字 摄像 机 则 安装 于 上 方 。 当 
交叉 支撑 杆 通 过 摄像 机 视 场 时 ， 摄 像 机 拍摄 它 的 图 像 。 在 图 像 上 ， 对 应 交 又 支撑 杆 钢铁 部 分 
的 像素 是 深 色 ， 像 素 值 为 1; 对 应 孔 区 的 像素 是 亮色 ,像素 值 为 0， 表示 螺 和 孔 已 钻 。 孔 数 可 以 
通过 外 角 (external corner) 数 减 去 内 角 (internal corner) 数 然后 除 以 4 计算 。 图 1-3 中 ， 有 三 
个 像素 值 为 0 的 亮 孔 ， 背 景 的 像素 值 为 1。 外 角 由 2 x 2 的 相 邻 像素 形成 ， 包 含 三 个 1 值 像素 ; 内 
角 也 由 2 x 2 的 相 邻 像素 形成 ,包含 三 个 0 值 像素 。 图 1-3 中 显示 的 是 对 7 行 16 列 图 像 的 处 理 情况 ， 
并 给 出 了 算法 的 框架 。 孔 计数 只 是 数字 图 像 处 理 中 简单 但 实用 的 例子 之 一 。 (如 下 面 的 习题 
1.1 所 示 ， 仅 当 孔 是 4- 连 通 (4-connected) 而 且 是 简单 连通 (simply connected) 时 ， 也 就 是 孔 
内 没有 背景 像素 时 ， 孔 计数 算法 才 是 正确 的 。 第 3 章 进 一 步 讨 论 了 这 些 概念 ， 更 详细 的 讨论 请 
参考 Rosenfeld 所 编 的 教材 。 
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a) 2 x2 外 角 模 式 





b) 2x2 内 角 模 式 





暗 背景 下 的 三 个 亮 孔 区 





d) 7x 16 的 二 值 输入 图 像 





“e” 表 示 外 角 模 式 ,“i ”表示 内 角 模 式 
图 1-3 对 二 值 图 像 进行 孔 计数 。 外 角 模 式 e 的 个 数 21 个 减 去 内 角 模式 i 的 个 数 9， 
然后 除 以 4 得 到 孔 的 个 数 为 3。 为 什么 


算法 1.1 二 值 图 像 孔 计数 的 算法 框架 
M 是 R 行 C 列 的 二 值 图 像 。 


像素 值 “1” 对 应 物体 的 材料 区 域 ， 光 线 不 能 通过 ; 
像素 值 “0” 对 应 缺 材料 的 孔 区 ， 光 线 能 够 穿 过 。 
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每 个 0 值 区 域 必 须 是 4- 连 通 的 ， 而 且 图 像 的 边界 像素 值 必须 为 1。 
E 是 外 角 (三 个 1 和 一 个 0) 的 个 数 ; 
I 是 内 角 (三 个 0 和 一 个 1) 的 个 数 。 

integer procedure Count_Holes (M) 


{ 


examine entire image, 2 rows at a time; 


count external corners E; 
count internal corners I; 
return (number_of_holes = (E-—I)/4); 





考虑 下 列 三 幅 图 ， 大 小 分 别 为 4x 5. 4 x 4 和 4 x 5。 
(A ETETE EN PO CERI REE PE fata i di | 


在 扫描 角 模式 时 ， 对 上 述 三 图 采用 算法 1.1 进 行 实验 ， 它 们 分 别 有 12、9 和 12 个 2 x 2 邻 域 。e、i、 
n 分 别 表示 外 角 、 内 角 和 非 内 外 角 ， 每 个 2 x 2 邻 域 与 es、i、n 中 的 一 个 匹配 。(a) 对 于 三 幅 图 
中 的 每 一 幅 ，e、i、n 模 式 各 有 多 少 个 ? (b) 孔 计 数 公 式 是 否 对 这 三 幅 图 都 适用 ? 
1.2.4 诊断 人 脑 内 部 

磁 共 振 成 像 (MRI) 设备 能 感 测 到 三 维 目标 内 部 的 组 织 。 图 1-4 是 人 头 的 剖面 图 ， 竞 区 与 
头 部 组 织 的 运动 有 关 ， 这 实际 上 是 一 张 关于 头 部 血液 流动 的 图 片 。 人 们 可 以 看 见 重要 的 血管 ， 
其 中 的 彗星 状 结构 表示 人 眼 区 域 。 医 生 通 过 MRI 图 像 检 查 肿 瘤 或 血 流 问 题 ， 例 如 反常 的 血管 
收缩 和 扩张 。 图 1-4 中 的 右 图 是 对 左 图 进行 二 值 处 理 的 结果 ， 大 于 等 于 208 的 像素 值 设 为 亮 
(255)， 低 于 208 的 像素 值 设 为 暗 (0)。 相 对 于 背景 ， 大 多 数 亮 区 像素 正确 地 突显 出 血管 ， 但 
是 无 论 是 亮 区 还 是 暗 区 ， 其 中 都 有 不 少 着 色 不 正确 的 像素 。 医 学 图 像 分 析 常 常 要 用 到 机 器 视 
觉 技 术 ， 尽 管 常常 是 为 了 辅助 数据 表示 和 度量 而 非 诊断 本 身 。 如 果 我 们 能 够 看 到 思想 突然 浮 
现在 大 脑 中 那 岂 不 很 妙 ? 哦 ， 原 来 MRI 能 感 测 与 思考 过 程 有 关 的 器 官 活动 。 目 前 这 是 一 个 非 
常 令 人 振奋 的 研究 领域 。 









12 每 个 孔 有 多 少 个 像素 ? 

进一步 考虑 计算 卡车 交叉 支撑 杆 上 孔 数 的 应 用 实例 。 假 设 交 又 支撑 杆 尺 寸 是 50 英 寸 长 、 
10 英 十 宽 ， 成 像 后 形成 大 约 100 行 500 列 像素 的 数字 图 像 。 如 果 交叉 支撑 杆 上 有 一个 特殊 螺 孔 ， 
直径 是 1/2 英 寸 ， 你 认为 图 像 上 孔 的 半径 和 面积 是 多 少 ? 以 像素 为 单位 。 
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该 问题 与 上 一 个 问题 有 关 。 取 一 些 坐 标 纸 (最 好 是 0.25 平 方 英寸 ) 和 一 个 0.25 美 元 的 硬币 。 
把 硬币 随机 地 放 在 坐标 纸 上 ， 色 出 它 的 圆周 线 ， 这 样 共 做 5 次 。 对 每 个 位 置 ， 以 像素 为 单位 估 
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计 硬 币 图 像 的 面积 。(a) 判断 某 个 像素 是 否 属于 硬币 图 像 (不 计 小 数 )，(b) 对 每 个 被 圆周 穿 
过 的 像素 ， 估 计 有 多 大 面积 属于 0.25 美 元 硬币 ， 精 确 到 0.1 个 像素 。 做 完 这 些 估算 后 ， 分 别 计 
算 硬 币 图 像 面 积 的 均值 和 标准 差 。 





图 1-4 左 图 是 核磁 共振 图 像 ， 其 中 亮 区 与 血 流 有 关 。 右 图 是 对 左 图 进行 二 值 
处 理 后 的 图 像 ， 所 有 大 于 或 等 于 208 的 像素 值 设 为 255， 低 于 208 者 设 
为 0 (图 像 由 密歇根 州 放 射 科 的 James Siebert 提 供 ) 


1.2.5 处 理 扫描 的 文本 页 面 

把 纸 质 文档 转化 为 适合 于 信息 系统 的 数字 形式 是 一 个 常见 的 问题 。 例 如 ， 把 一 本 旧书 刊 
登 在 因特网 上 ， 或 者 将 蓝图 转化 为 几何 文件 以 便于 用 数控 机 床 制造 零件 。 

图 1-5 中 的 中 文 和 英文 表达 同样 的 意思 。 中 文字 写 在 纸 上 并 被 扫描 成 482 x 405 的 图 像 。 对 
图 形 编码 并 表示 为 postscript 格 式 的 数字 文件 ， 大 小 为 68 464 字 节 。 英 文 文本 则 存储 在 一 个 115 
字 节 的 文件 中 ， 每 字 节 存放 一 个 ASCII 字 符 。 这 在 文档 处 理 方面 应 用 广泛 。 从 扫描 或 传真 文件 
的 点 阵 中 识别 字符 ， 就 属于 这 样 的 应 用 。 如 今 这 项 技术 已 经 非常 成 熟 ,但 要 求 字 符 与 标准 字 
体 一 致 。 对 信息 进行 语义 解释 是 更 难 的 问题 ， 它 可 用 于 大 型 数据 库 检 索 之 中 。 


TRE Fe 
ke $3. EB, fa oh. 
& gn 4A VL, 


` $ A 44 i | I looked as hard as I could see, 
以 2 beyond 100 plus infinity 
an object of bright intensity 
一 it was the back of me! 


图 1-5 左 图 是 中 文字 符 ， 右 图 是 英文 对 照 。 机 器 有 可 能 自动 地 对 它们 进行 互 
译 吗 ? (英文 诗作 者 为 George Stockman ， 由 John Weng 翻 译 成 中 文 ) 


1.2.6 解释 积 雪 覆盖 

卫星 有 规律 地 扫 过 地 球 表面 的 大 部 分 ， 并 把 数字 图 像 传 送 到 地 面 。 对 这 些 图 像 进行 处 理 ， 
抽取 出 各 种 各 样 的 信息 ， 例 如 河流 分 水 岭 上 的 积 雪 量 ,对 于 调节 大 坝 控制 洪水 、 水 供应 或 者 
野生 动物 居住 是 非常 重要 的 。 通 过 统计 图 像 中 代表 雪 的 像素 个 数 ， 可 以 估计 出 积 雪 量 。 卫 星 
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图 像 中 的 一 个 像素 可 能 与 地 面 10m x 10m 的 区 域 范围 对 应 ， 但 是 据 报导 一 些 卫星 能 看 到 更 小 的 
范围 。 必 须 经 常 把 卫星 图 像 和 地 图 或 其 他 图 像 进行 比较 ， 以 确定 哪些 像素 位 于 特定 区 域 或 分 
水 岭 上 。 这 种 工作 常常 是 用 户 与 图 像 处 理 软 件 以 交互 的 方式 完成 的 。 关 于 这 方面 的 内 容 将 在 
第 11 章 进行 更 多 的 讨论 ， 图 像 匹配 也 在 第 11 章 讲解 。 图 1-6 是 在 一 次 太空 飞行 时 拍摄 的 照片 ， 
此 次 飞行 由 位 于 德 克 萨 斯 州 休斯顿 的 约翰 逊 太 空中 心 控制 。 照 片 显 示 出 华盛顿 州 的 Wenatchee 
镇 ，Wenatchee 河 在 那儿 汇 入 哥伦比亚 河 。 





图 1-6 华盛顿 州 的 Wenatchee 河 与 哥伦比亚 河 (约翰 逊 太空 中 心 提供 ) 

众所周知 ， 计 算 机 能 够 处 理 大 量 的 数据 。 卫 星 扫描 地 球 产 生 大 量 数据 ， 这 些 数据 在 许多 
方面 都 要 用 到 。 例 如 关于 某 地 区 水 文 地 理 的 计算 机 模拟 程序 ， 就 需要 输入 积 雪 像 素 的 个 数 和 
位 置 。( 该 地 区 的 温度 信息 也 要 输入 到 程序 中 去 。) 另 一 个 应 用 是 调查 农作物 的 种 植 情 况 并 对 
收成 进行 预算 。 再 有 一 个 应 用 则 是 为 了 税收 目的 对 建筑 物 进行 清点 ， 这 常常 是 利用 在 飞机 上 
拍 出 的 图 片 由 人 工 完成 的 。 
1.2.7 理解 零件 场景 

在 制造 过 程 的 许多 环节 中 ， 通 过 传送 带 或 箱子 搬运 零件 。 零 件 必须 分 别 地 用 机 器 放置 、 
包装 或 检查 等 。 如 果 操 作 枯 燥 或 者 危险 ， 就 可 以 借助 视觉 引导 机 器 人 。 图 1-7 显 示 的 是 机 器 人 
工作 区 中 的 三 个 零件 。 机 器 人 视觉 系统 通过 识别 边缘 和 孔 从 而 识别 出 零件 ， 并 确定 零件 在 工 
作 区 中 的 位 置 。 对 于 每 个 推测 出 的 零件 及 其 位 置 ， 借 助 计算 机 辅助 设计 (CAD) 制作 三 维 模 
型 ， 视 觉 系 统 随后 对 感 测 到 的 图 像 数 据 与 按照 模型 及 其 空间 位 置 生成 的 计算 机 图 形 进行 比较 。 
忽略 不 好 的 匹配 ， 而 用 好 的 匹配 对 推测 结果 进一步 修改 完善 。 图 1-7 中 的 亮 线 表示 图 像 与 目标 
模型 间 的 三 个 精确 匹配 结果 。 最 后 ， 机 器 人 的 眼 - 脑 告诉 机 器 人 手 辟 如 何 捡 起 零件 并 放 到 某 个 
地 方 。 三 维 视觉 的 问题 和 技术 在 第 13 章 和 14 章 中 介绍 。 
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举 出 其 他 可 应 用 机 器 视觉 解决 问题 的 领域 。 
如 果 你 脑 中 还 没有 特定 的 应 用 领域 ,现在 就 选 


一 个 。 


样 的 


会 感 测 到 什么 样 的 场景 ?图 像 会 是 什么 
会 产生 什么 输出 ? 


BESSA SSE MEN SE SSSR 


问题 的 来 龙 去 脉 

问题 可 以 通过 不 同 的 方式 解决 ， 解 决 问题 
的 人 不 应 该 过 早 地 陷入 某 种 解决 途径 。 考 虑 在 
不 同情 况 下 识别 车 辆 的 问题 : (a) 进入 一 个 停 
车 场 或 保安 区 ，(b) 通过 一 个 收费 卡 ，(c) 车 
速 超 限 。 几 个 研究 组 正在 开发 或 已 经 开发 出 读 
取 车 牌 的 机 器 视觉 方案 。 提 出 其 他 能 代替 机 器 


~ 











检测 器 或 装配 机 器 人 对 存储 的 
三 维 模型 与 感 测 到 的 二 维 图 像 
进行 匹配 (Mauro Costa 提 供 ) 


视觉 的 方案 ， 并 与 机 器 视觉 方案 相 比较 ， 它 的 经 济 成 本 与 社会 成 本 如 何 ? 


1.3 图 像 运算 
本 书包 括 很 多 图 像 运 算 ， 依 照 它们 的 结构 、 


等 级 或 目的 ， 划 分 为 不 同 的 类 别 。 有 些 运 算 


只 是 为 了 方便 人 们 观赏 而 改善 图 像 ， 另 一 些 则 是 为 后 继 的 自动 处 理 提取 信息 。 有 些 运算 产生 
新 的 输出 图 像 ， 而 另 一 些 则 输出 非 图 像 描 述 。 下 面 介绍 几 类 重要 的 图 像 运算 。 


1.3.1 邻 域 运 算 


像素 的 值 可 以 根据 它们 与 少量 相 邻 像素 (比如 说 相 邻 行 或 列 中 的 邻 点 ) 的 关系 而 改变 。 
二 值 图 像 中 孤立 的 1 或 0 值 经 常 要 改变 ， 以 便 与 邻 点 一 样 。 这 一 运算 是 为 了 消除 数字 化 过 程 中 
可 能 带 来 的 噪声 ， 或 者 只 是 对 图 像 内 容 进 行 简 化 。 例 如 ， 忽 略 湖面 上 的 微小 岛屿 或 纸 面 上 的 


瑕 症 。 男 一 个 常见 运算 是 把 边界 像素 (border pi 
1-8 所 示 ， 细 菌 的 图 像 有 着 模糊 的 边缘 而 且 经 党 


xel) 变 为 背景 像素 (background pixel)。 如 图 
连 在 一 起 。 通 过 把 边缘 像素 由 黑色 改 为 白色 ， 


细菌 图 像 虽然 小 了 一 些 却 有 了 更 清晰 的 边缘 ， 而 且 分 开 了 一 些 原来 连 在 一 起 的 细菌 。 这 些 运 


算 将 在 第 3 章 中 讨论 。 
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图 1-8 


(原始 图 像 由 Frank Dazzo 提 供 ) 


左 图 是 细菌 的 二 值 图 像 (在 原始 的 显 微 图 像 中 ， 由 于 荧光 染色 剂 的 缘故 ， 细 菌 是 蓝 色 的 ) 
右 图 是 把 周围 是 白色 邻 点 的 黑色 像素 改 为 白色 ， 产 生出 较 清 晰 图 像 
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找 出 残留 在 图 1-8 右 图 中 的 缺陷 ， 描 述 能 改善 图 像 的 简单 邻 域 运算 。 


1.3.2 整 幅 图 像 增强 

有 些 运 算 统一 处 理 整 幅 图 像 。 图 像 可 能 太 暗 ， 例 如 它 的 最 大 亮度 值 是 120， 将 所 有 亮度 值 
被 放大 2 倍 可 以 改进 显示 结果 。 如 果 每 个 像素 的 值 用 其 邻 域 的 9 个 像素 的 平均 值 代替 ， 就 可 以 
去 除 噪声 和 不 必要 的 细节 。 另 一 方面 ， 把 像素 值 替 换 为 它 与 邻 点 的 反差 ， 则 可 以 增强 细节 。 
图 1-9 显 示 对 一 幅 图 像 的 所 有 像素 进行 简单 反差 计算 的 结果 。 可 以 看 到 多 数 物体 的 边界 都 检测 
出 来 了 。 只 需要 对 输入 图 像 的 各 点 在 3 x 3 局 部 邻 域 上 计算 对 比 度 ， 就 可 以 产生 输出 图 像 。 第 5 
章 将 介绍 几 种 属于 这 一 类 的 算 子 。 一 幅 图 像 也 许 来 自 鱼 眼镜 头 ， 而 我 们 希望 得 到 畸变 较 小 的 
输出 图 像 ， 这 时 就 需要 把 像素 值 移 到 更 靠近 图 像 中 心 的 位 置 上 ， 这 样 的 运算 称 为 图 像 变 形 
(image warping)， 在 第 11 章 中 进行 介绍 。 








图 1-9 右 图 是 对 左 图 进行 反差 计算 的 结果 。 根 据 反差 前 10% 的 像素 取 亮 值 ， 
其 余 90% 的 像素 取 暗 值 。 在 每 个 像素 的 3 x 3 邻 域 计算 反差 

1.3.3 多 幅 图 像 运 算 

两 幅 图 像 相 加 或 者 相 减 可 以 得 到 一 幅 新 图 像 。 一 般 用 图 像 减法 检测 图 像 随时 间 的 变化 。 
图 1-10 显 示 一 个 运动 部 件 的 两 幅 图 像 ， 以 及 第 一 幅 图 像 中 的 像素 值 减 去 第 二 幅 中 对 应 的 像素 
值 后 得 到 的 差 图 。 通 过 图 像 减 法 得 到 运动 物体 的 边界 ， 但 并 不 完整 。( 因 为 没有 用 到 负 的 像素 
值 ， 所 以 输出 图 像 中 不 包含 全 部 变化 。) 在 另 一 个 应 用 中 ， 用 当前 的 城市 航 测 图 像 减 去 五 年 前 
拍 的 图 像 ， 可 以 更 容易 地 看 到 城市 的 发 展 情况 。 图 像 相 加 也 是 有 用 的 。 图 1-11 显 示 托 马 斯 - 
杰 弗 还 的 一 幅 相 片 ， 被 加 到 路 易 斯 安娜 州 的 大 拱门 图 像 上 ， 在 这 种 情况 下 ， 要 把 图 像 融 合 得 
更 好 还 要 做 更 多 的 工作 。 
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左 图 和 中 图 是 运动 部 件 的 两 幅 图 像 
右 图 是 表示 部 件 边界 的 差 图 








左 图 是 路 易 斯 安娜 州 大 拱门 的 图 像 
中 图 是 杰 弗 逊 头像 
右 图 是 两 者 相 加 后 的 结果 


1.3.4 图 像 特征 计算 

我 们 已 经 看 到 和 孔 计 数 的 例子 。 更 一 般 的 情况 是 ， 与 应 交叉 支撑 杆 质 检 问 题 中 的 孔 对 应 的 0 
值 区 域 是 我 们 关心 的 目标 图 像 区 域 ， 这 种 小 目标 经 常 被 称 为 团 儿 (blob) (原意 也 许 是 指 水 样 
中 的 微生物 )。 平 均 面积 、 周 长 、 方 向 等 是 目标 的 重要 特征 ， 要 对 每 个 被 检测 的 目标 分 别 输出 
这 些 重要 特征 。 第 3 章 将 讨论 这 种 处 理 过 程 。 第 6 章 和 第 7 章 定 量 讨论 图 像 区 域 的 颜色 和 纹理 特 
征 。 第 4 章 介绍 如 何 根据 这 些 特 征 对 目标 进行 分 类 ， 例 如 提取 出 的 区 域 是 微生物 A 还 是 B 的 图 
像 ? 图 1-12 显 示 某 著名 算法 应 用 于 图 1-8 的 细菌 图 像 的 结果 ， 给 出 了 从 图 像 中 识别 出 来 的 各 区 
域 的 特征 ， 包 括 区 域 面积 和 位 置 。 面 积 为 几 百 个 像素 的 区 域 表示 孤立 的 细菌 ， 大 的 区 域 则 表 

示 儿 个 相连 的 细菌 。 


目标 ”面积 边界 框 中 心 

1 247 [(20 26), (32 ,56)] (26.1, 42.0) 

2 [(25 22), (26 , 24)) (25.5, 23.0) 

3 116 L(35 72), (54 , 86)] (44.1, 79.4) 

4 4 [(37 69), (38 , 70)] (37.5, 69:5) 

5 15 ((46 86), (50 , 89)] (47.6, 87.4) 

6 586 [(49 122), (95 , 148)] (71.7, 134.8) 
7 300 ((54 he U77.... 112)] (65.6, 101.9) 
8 592 EISI 138), (108 , 163)] (83.6, 150.8) 
9 562 [Lt57 158), (104 183)] (81.2, 171.4) 
10 5946 ((74 195):,, (221 313) ] (138.0, 256.5) 
11 427 [(204 115), (229 151)1 (217.1, 132.3) 
12 797 [ (242 42), (286 97)] (264.9, 71.8) 
13 450 [ (248 170), (278 204)] (262.7, 188.1) 
14 327 [(270 182), (291 216)] (279.9, 200.3) 
aS 264 LC293 e 195), (311 , 221)] (300.8, 206.7) 
16 145 ((304 , 179), (316 , 193)] (310.4, 186.4) 


目标 总 面积 = 10784 像素 


图 1-12 从 图 1-8 右 边 的 细菌 图 像 中 自动 识别 出 来 的 区 域 成 分 。 单 个 细菌 区 域 
包含 几 百 个 像素 ， 较 大 的 区 域 由 几 个 相连 的 细菌 组 成 。 微 小 目标 2、4 
和 5 则 是 噪声 


1.3.5 抽取 非 图 像 表示 

高 层 运算 通常 要 抽取 出 非 图 像 表 示 ， 也 就 是 说 数据 结构 不 像 一 幅 图 像 。( 前 面 说 过 抽取 这 
类 描述 经 常 被 定义 为 计算 机 视觉 的 目标 。 ) 图 1-12 显 示 的 是 从 细菌 图 像 抽取 的 非 图 像 描述 。 除 
了 已 经 提 到 的 例子 ， 考 虑 在 显微镜 下 统计 涂 片 上 A 类 和 B 类 微生物 数目 的 报告 ， 以 及 根据 视频 
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计算 城市 的 两 交叉 路 口 之 间 的 交通 流量 。 另 一 个 重要 应 用 是 ， 输 入 的 是 一 篇 扫描 的 杂志 文章 ， 
而 输出 的 是 图 形 超 文本 结构 ， 包 含 要 识别 的 ASCII 文 本 和 原始 图 像 部 分 。 最 后 ， 在 图 1-7 所 示 
的 应 用 例子 中 ， 机 器 视觉 系统 将 输出 对 三 个 零件 的 检测 结果 ， 每 个 结果 对 应 零件 编号 、 表 示 
零件 位 置 的 三 个 参数 和 表示 零件 方向 的 三 个 参数 。 然 后 将 场景 描述 输入 到 运动 规划 系统 ， 通 
过 运动 规划 系统 决定 如 何 对 这 三 个 零件 进行 操作 。 


1.4 面临 的 问题 

到 目前 为 止 , 已 经 列举 了 不 少 计算 机 视觉 的 应 用 ,但 实际 中 的 应 用 往往 是 非常 困难 的 ， 
真正 实现 起 来 要 受到 环境 的 制约 ， 这 将 影响 系统 的 灵活 性 。 例 如 成 像 前 对 场景 的 光照 要 小 心 
控制 ， 或 者 需要 用 机 械 把 目标 分 开 或 者 归 位 。 因 为 外 界 环境 对 图 像 的 影响 很 大 ， 使 抽取 目标 
本 质 特 征 或 者 不 变 特征 (invariant feature) 的 最 佳 算法 面临 挑战 。 意 想不到 的 光照 变化 或 者 
其 他 物体 的 出 现 对 目标 外 观 影响 很 多 ， 如 图 1-7 和 1-9 中 的 阴影 。 另 外 决定 目标 结构 时 经 常 要 对 
图 像 像素 的 各 种 信息 进行 集成 。 如 图 1-9 中 柜台 上 玻璃 杯 上 边界 的 亮度 同 墙 是 一 样 的 ， 因 此 玻 
璃 杯 上 边界 与 墙 之 间 的 边界 在 像素 级 看 不 出 来 。 为 了 把 每 个 玻璃 杯 作为 独立 目标 进行 识别 ， 
对 较 宽 的 区 域 上 的 像素 要 进行 分 类 和 组 织 。 人 类 在 这 方面 很 擅长 ， 但 对 机 器 视觉 来 说 ， 灵 活 
的 分 类 处 理 很 困难 。 遮 挡 问 题 妨 碍 对 3D 物 体 的 识别 。 如 果 图 1-9 中 的 人 和 椅子 都 没有 露出 腿 部 ， 
视觉 系统 能 识别 出 人 和 椅子 吗 ? 在 更 高 层次 上 ， 什 么 样 的 狗 (dog) 模型 才能 使 机 器 能 够 根据 
图 像 识别 出 不 同 个 体 呢 ? 这 些 困 难 还 有 其 他 一 些 困难 ， 在 本 书 中 都 要 进行 讨论 。 
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下 列 物体 存在 哪些 不 变 特征 ， 使 它们 无 论 在 雨中 还 是 阳光 下 ， 无 论 是 单独 存在 还 是 伴随 
他 物 存 在 ， 无 论 是 从 正面 还 是 从 侧面 ， 你 都 能 够 识别 出 它们 ? (a) 你 的 网 球鞋 。(b) 你 家 的 
正门 。(c) 你 妈妈 。(d) 你 最 喜爱 的 汽车 。 


1.5 计算 机 和 应 用 软件 

在 对 定量 信息 的 准确 计算 方面 ， 计 算 机 的 能 力 是 神奇 的 。 图 像 运 算 已 经 发 展 了 30 多 年 ， 
最 初 的 研究 大 都 在 装备 大 型 机 的 实验 室 、 或 者 在 装备 专用 机 的 生产 车 间 里 进行 。 近 年 来 ， 大 
容量 廉价 的 存储 器 和 高 速 通用 处 理 器 的 快速 发 展 ， 使 多 媒体 个 人 电脑 用 户 也 能 够 进行 图 像 运 
算 ， 图 像 爱 好 者 在 餐厅 就 可 以 工作 。 

人 们 以 不 同 的 方式 进行 图 像 运算 ， 最 省 事 的 做 法 是 找到 一 个 现成 的 程序 完成 要 进行 的 图 
像 运算 。 有 的 程序 是 公开 免费 的 ， 有 的 则 必须 购买 。 很 多 免费 图 像 可 从 万 维 网 上 得 到 。 如 果 
想 自己 生成 输入 图 像 ， 可 以 购买 一 台 平 台 扫描 仪 或 一 部 数字 摄像 机 ， 价 格 是 几 百 美元 。 包 含 
图 像 处 理子 程序 的 软件 库 也 能 够 得 到 ， 用 户 编写 应 用 程序 调用 软件 库 中 的 子 程序 ， 对 自己 的 
图 像 数 据 进行 所 需 的 运算 。 大 多 数 销售 机 器 视觉 输入 设备 的 公司 也 提供 图 像 运算 库 ， 甚 至 提 
供 美妙 的 图 形 用 户 接口 (GUI) 驱动 程序 。 有 的 图 像 运 算 ， 用 通用 处 理 器 计算 需要 许多 秒 其 
至 儿 分 钟 的 时 间 ， 而 使 用 特殊 硬件 可 以 加 速 图 像 运算 。 许 多 早期 的 并 行 机 价值 几 百 万 美元 ， 
设计 时 以 图 像 处 理 为 首要 任务 ， 而 今天 多 数 关键 的 运算 用 几 块 价值 几 千 美元 的 板 卡 就 能 完成 。 
一 般 特殊 硬件 只 在 高 生产 率 或 有 实时 性 要 求 时 才 需 要 。 以 图 像 和 图 像 运 算 为 要 素 的 特殊 编程 
语言 已 经 开发 出 来 ， 但 这 些 语言 有 时 与 控制 工业 机 器 人 的 运算 相 结 合 。 现 在 图 像 处 理 能 够 用 
通用 语言 编程 实现 ， 如 C 语 言 。 通 用 计算 机 通过 邮购 或 到 本 地 商店 可 以 很 方便 地 买 到 。 这 些 对 
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于 机 器 视觉 来 说 ， 都 是 很 有 利 的 条 件 。 从 各 个 方向 向 挑战 性 的 问题 进攻 的 时 候 到 了 ! 请 读者 
们 加 入 吧 。 


1.6 相关 领域 

计算 机 视觉 同 许多 其 他 学 科 关 系 密切 ， 我 们 无 法 在 本 书 中 深入 研究 所 有 这 些 关 系 。 首 先 ， 
区 分 图 像 处 理 (image processing) 和 图 像 理解 (image understanding) 很 重要 。 图 像 处 理 主 
要 关心 的 是 图 像 到 图 像 的 变换 ; 而 图 像 理解 关心 的 是 基于 图 像 的 判定 并 显 性 地 构造 场景 描述 。 
图 像 处 理 经 常用 于 支持 图 像 理解 ， 因 此 本 书 将 在 某 种 程度 上 进行 论述 。 与 图 像 处 理 有 关 的 书 
籍 中 ， 所 用 到 的 图 像 模型 一 般 是 两 个 空间 参数 x 和 y 的 连续 函数 Ax, y)， 而 本 书 中 所 用 的 图 像 模 
型 主要 是 整 型 亮度 值 的 二 维 离散 阵列 I[r，e]。 在 本 书 中 ， 我 们 不 区 分 术语 计算 机 视觉 、 机 器 
视觉 和 图 像 理解 ， 但 是 ， 专 家 们 肯定 会 争辩 它们 的 细微 差别 。 

人 类 感知 的 心理 学 因 存 在 两 个 理由 而 显得 非常 重要 : 首先 ， 为 满足 人 类 需要 的 图 像 制 作 
者 必须 注意 到 客户 的 特点 ; 其 次 ， 对 人 类 在 图 像 理解 上 巨大 能 力 的 研究 可 以 指导 我 们 开发 新 
的 算法 。 本 书 也 讨论 了 一 些 人 类 感知 和 认 知 方面 的 内 容 ， 主 要 是 为 了 解决 现存 问题 。 光 物理 
学 ， 包 括 光学 和 颜色 科学 ， 对 我 们 的 研究 是 很 重要 的 。 我 们 将 讨论 必要 的 基本 知识 。 但 是 ， 
想 成 为 照明 、 感 知 或 镜头 方面 专家 的 读者 需要 阅读 相关 的 文献 。 本 书 从 头 到 尾 使 用 了 各 种 数 
学 模型 ， 为 了 熟练 掌握 ， 读 者 必须 清楚 函数 、 概 率 、 微 积分 和 解析 几何 的 概念 。 图 像 处 理 的 
有 关 概 念经 常会 加 强 对 数学 概念 的 理解 。 最 后 ， 任 何 关于 计算 机 视觉 的 书 必 定 同 计算 机 图 形 
学 密切 相关 。 两 个 领域 都 涉及 物体 如 何 被 观察 和 如 何 被 建 模 ， 主 要 差别 在 于 方向 一 一 计算 机 
视觉 是 根据 图 像 对 目标 进行 描述 和 识别 ， 而 计算 机 图 形 学 是 根据 目标 描述 生成 图 像 。 最 近 ， 
这 两 个 领域 出 现 了 明显 的 集成 趋势 : 计算 机 图 形 学 用 来 显示 计算 机 视觉 的 结果 ， 而 计算 机 视 
觉 用 来 建立 物体 模型 。 通 常 使 用 数字 图 像 作 为 计算 机 图 形 产 品 的 输入 。 


1.7 内 容 安 排 

前 面 几 节 非 正式 地 介绍 了 书 中 的 不 少 概念 ， 并 指明 讨论 这 些 概念 的 章节 。 读 者 现在 应 该 
对 机 器 视觉 涉及 的 领域 及 几 种 视觉 算法 有 所 了 解 。 后 面 紧 随 着 的 几 章 主要 描述 2D 机 器 视觉 ， 
其 中 图 像 分 析 以 像素 、 行 、 交 点 、 颜 色 和 纹理 等 术语 为 基础 。 可 以 肯定 地 说 ， 从 3D 场 景 获 取 
2D 图 像 的 知识 是 存在 的 ， 图 像 像素 与 自然 要 素 之 间 的 关系 是 明显 的 ， 只 是 尺度 上 不 同 而 已 。 
例如 一 名 放射 线 专家 ， 能 够 很 容易 从 一 幅 图 像 看 出 血管 是 否 狭 窗 ， 而 不 用 知道 太 多 的 传感器 
知识 ， 或 者 知道 像素 表示 身体 的 什么 部 位 。 机 器 视觉 程序 也 能 做 到 这 一 点 。 同 样 ， 文 字 识别 
算法 实质 上 与 被 扫描 的 真实 字体 大 小 毫 不 相干 。 从 第 2 章 到 第 11 章 讨论 的 都 是 2D 特 征 ， 比 第 
12 章 到 第 16 章 的 内 容 更 一 般 、 更 简单 。 在 第 13 章 到 第 15 章 中 ， 目 标的 3D 特 征 和 成 像 视 点 是 讨 
论 的 重点 。 对 单 幅 图 像 没 法 进行 分 析 ， 需 要 把 多 幅 图 像 、 或 者 把 图 像 与 模型 联系 起 来 ， 或 者 
把 传感器 的 视线 与 机 器 人 的 视线 联系 起 来 。 在 第 13 章 到 第 15 章 中 ， 分 析 的 是 3D 场 景 ， 而 不 是 
2D 图 像 ， 最 重要 的 分 析 工 具 是 3D 解 析 几 何 。 和 计算 机 图 形 学 一 样 ， 无 论 是 在 模型 抽象 上 还 是 
在 计算 量 上 ， 从 2D 到 3D 都 要 迈 上 很 大 的 台阶 。 


1.8 参考 文献 
计算 视觉 方面 的 文献 具有 很 强 的 、 与 应 用 领域 相关 的 专业 性 。 例 如 ，Fleck 等 人 (1996) 
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的 论文 ， 讲 述 如 何 检测 色情 图 片 ， 以 便 在 儿童 的 计算 机 中 对 这 些 图 片 进行 屏蔽 。 孔 计数 算法 
的 讨论 参考 了 Kopydlowski (1983) 的 工作 ， 其 中 对 卡车 交叉 支撑 杆 的 质 检 用 到 了 该 算法 。 再 
如 卫星 传感器 的 设计 与 医用 仪器 的 设计 差别 很 大 ， 制 造 系统 也 有 自己 的 特色 。 特 殊 领域 的 参 
考 文献 ， 如 Nagy (1972) 和 Hord (1982) 是 关于 遥感 的 ，Glasby 与 Horgan (1995) 是 关于 生 
物 学 的 ，Olluas (1987) 和 QCAV (1999) 是 关于 工业 应 用 的 ，ASAE (1983) 是 关于 农业 应 
用 的 。 有 关 彩 色 CCD 摄 像 机 早期 发 展 的 几 篇 论文 之 一 是 Dillon 等 人 于 1978 年 发 表 的 论文 。 儿 
个 应 用 领域 共存 的 问题 、 方 法 和 理论 自然 是 教科 书 的 主要 内 容 ， 这 也 是 本 书 的 主要 内 容 。 第 
一 本 使 用 计算 机 处 理 图 像 的 教科 书 可 能 是 Rosenfeld (1969) 编写 的 ， 主 要 内 容 是 图 像 处 理 ， 
而 不 涉及 高 层 的 模型 。Ballard 与 Brown (1982) 所 编 教材 算 是 第 一 本 计算 机 视觉 (Computer 
Vision) 的 教科 书 ， 内 容 集中 在 基于 高 层 模 型 的 图 像 分 析 方 面 。Levine (1985) 编写 的 教材 值 
得 注意 ， 它 包含 有 关 人 类 视觉 系统 的 重要 内 容 。Haralick 与 Shapiro (1992) 的 两 卷 集 是 算法 
及 其 数学 基础 的 最 新 资源 。Jain、Kasturi 和 Schunk (1995) 的 著作 ， 主 要 从 工程 的 角度 介绍 
机 器 视觉 的 最 新 进展 。 

. ASAE. 1983. Robotics and intelligent machines in agriculture. Proc. Ist Int. Conf. 


Robotics and Intelligent Machines in Agriculture (2—4 Oct. 1983), American Society 
of Agricultural Engineers, Tampa: FL, St. Joseph, MI. 
. Ballard, D. H., and C. M. Brown. 1982. Comput. Vision. Prentice-Hall, Englewood 
Cliffs, NJ. 
3. Dillon, P., D. Lewis, and F Kaspar. 1978. Color imaging system using a single CCD 
area array. IEEE Trans. Electron Devices, ED-25(2):102—107. 
4. Fleck, M., D. Forsyth, and C. Pregler. 1996. Finding naked people [in images]. Proc. 
European Conf. Comput. Vision. Springer-Verlag, New York, 593-602. 


5. Glasby, C. A., and G. W. Horgan. 1995. Image Analysis for the Biological Sciences. 
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1.9 附加 习题 

对 下 面 儿 个 问题 的 回答 要 求 写 出 短篇 报告 。 有 的 问题 要 求 进行 定量 分 析 ， 其 中 多 数 问题 
在 后 面 的 内 容 中 会 进行 更 详细 地 讨论 。 书 中 几 是 标注 星 号 (*) 的 问题 表示 有 一 定 的 难度 ， 需 
要 仔细 研究 、 推 导 或 者 编程 。 


商品 销售 问题 


食品 店 收 款 员 正 在 结算 你 所 购买 的 货物 。 条 形 码 技术 使 得 处 理 某 些 商品 变 得 比较 容易 ， 
例如 汤 品 包头 ， 只 需 让 条 码 阅 读 器 对 准 条 码 直到 听见 “ 嘟 ”的 一 声 。 但 这 个 系统 不 适用 于 散 
装 物品 ， 收 球员 必须 停 下 来 单独 处 理 。 怎 么 办 呢 ? 如 果 把 一 部 摄像 机 安装 在 台秤 与 条 码 阅 读 
器 的 上 方 或 内 部 ， 告 诉 收银 机 当前 处 理 的 是 什么 货物 ， 这 个 办 法 你 想到 没有 ? 利用 本 书 介 绍 
的 方法 ， 机 器 视觉 系统 就 能 够 区 分 出 绿 菠 菜 与 绿 甘蓝 、 富 士 苹果 与 麦 金 托 什 苹果 。 请 描述 这 
和 sii lai 





参考 图 1-8 中 的 细菌 图 像 和 图 1-12 中 的 自动 特征 计算 实例 。 在 这 个 例子 中 ， 能 不 能 统计 出 
细菌 的 数量 ， 使 精度 保证 在 5% 之 内 ? 请 加 以 解释 。 


习题 1.10 从 视频 到 三 维 模型 


假设 你 有 一 套 巴黎 圣母 院 的 视频 资料 ， 视 频 是 由 一 个 人 在 教堂 内 外 边 走边 拍 得 到 的 ， 
此 里 面包 括 多 个 视点 。 你 能 只 用 视频 制作 出 教堂 的 3D 模 型 吗 ? (如 果 没 有 信心 ， 就 假设 自己 
是 名 建筑 师 。) 如 果 不 能 ， 为 什么 ?如 果 能 ， 在 只 有 二 维 图 像 的 情况 下 如 何 构 造 三 维 模型 ? 


习题 1.11 计算 反差 


类 似 图 1-9 所 示 ， 思 考 在 每 个 3 x 3 邻 域 上 计算 反差 的 方法 。 假 定 9 个 像素 值 是 0 到 255 间 的 
亮度 值 ; 而 输出 像素 值 是 0 到 255 间 的 某 个 值 ， 表示 反差 大 小 。( 图 1-9 的 右 图 实际 上 只 用 了 两 
个 像素 值 0 和 255， 你 可 用 整个 范围 的 值 。) 





(a) 确定 杂志 广告 中 的 人 物性 别 和 大 致 年 龄 对 你 来 说 容易 吗 ? (b) 心理 学 家 告诉 我 们 ， 
人 类 具有 看 到 人 脸 就 马上 确定 其 年 龄 、 性 别 和 敌意 程度 的 能 力 。 假 设 人 类 确实 有 这 样 的 能 力 ， 
如 果 你 认为 这 种 能 力 是 基于 图 像 特征 的 ， 那 么 是 什么 特征 ? 如 果 你 认为 用 不 到 图 像 特 征 ， 那 
么 解释 人 类 是 根据 什么 做 出 这 种 结论 的 ? 





本 一 画 抵 千言 吧 ” 

考虑 下 列 短文 。 短 文 出 自 wWilliam Faulkner 的 《 声 器 与 愤怒 》(The Sound and the Fury) 
( Vintage Books Edition,1987 版 ，@1984，Jill Faulkner Summers 著 ，p.195 )。 你 认为 一 部 机 器 
能 从 论 及 的 场景 视频 中 提取 出 这 样 的 描述 吗 ? 


我 能 嗅 出 河流 的 弯 恋 ， 在 那 黄 展 之 后 
我 看 见 夕 阳 静 静 泻 在 潮 面 上 ， 像 片 片 破碎 的 镜面 
越过 它们 ,光芒 始 于 清白 的 天 空 
ABA SAH, ABA BRIT Kb 65 48 AE 


we È 15 








Bs 也 计数 的 正确 性 * 

这 一 问题 应 作为 提高 习题 ， 需 要 进行 较 深入 的 思考 并 阅读 本 章 内 容 之 外 的 知识 。(a) 二 
值 图 像 中 的 2 x 2 邻 域 ， 有 多 少 种 可 能 的 模式 ?把 它们 全 部 列 出 来 。(b) 哪些 模式 不 是 4- 连 通 
的 ? 边界 点 定义 为 2 x 2 邻 域 的 中 心 格 点 ， 邻 域 中 包含 0 值 和 1 值 像素 。(c) 证 明 通过 统计 沿边 
界 的 < 和 ;模式 的 数目 能 够 得 到 单个 孔 ， 并 且 当 只 有 一 个 孔 时 ， 公 式 n = (e - D/4 是 正确 的 。(d) 
证 明 没有 两 个 孔 能 共有 一 个 边界 点 。(e) 证 明 当 有 任意 个 孔 时 ， 公 式 仍然 正确 。 








iS 二 值 图 像 合 适 吗 ? 
拍摄 场景 图 像 ， 并 转换 成 二 值 图 像 。 比 如 红血球 图 像 ， 其 中 图 像 上 对 应 目标 物 的 区 域 像 
素 值 为 0， 对 应 背景 或 韭 目标 的 区 域 像 素 值 为 1。 考 虑 这 种 情况 对 于 下 列 场景 是 否 能 够 实现 。 
你 认为 为 什么 能 够 生成 或 者 不 能 够 生成 这 样 的 二 值 图 像 ? 


1. 一 张 打 过 字 的 纸 ， 通 过 页 面 扫描 生成 输入 图 像 。 总 目标 是 识别 出 其 中 的 多 数字 符 ， 并 
生成 ASCII 文 件 ， 这 样 就 可 以 用 文字 处 理 器 对 文本 进行 编辑 。 

2. 输入 人 头 部 的 X 光 图 片 ，0 值 区 域 表示 肿瘤 ，1 值 区 域 为 背景 。 

3. 输入 表现 美国 弗吉尼亚 州 Richmond 春 天 的 卫星 图 像 ， 通 过 调整 传感器 或 一 些 简单 的 计 
算 机 算法 ， 生 成 二 值 图 像 ， 其 中 0 值 区 表示 杜 鹏 花 从 ，1 值 区 为 背景 。 

4. 通过 统计 阀 杆 瞳 区 的 像素 数 ， 检 测 汽车 发 动机 阀 杆 的 宽度 。 我 们 每 天 要 制造 几 十 万 个 
阀门 。 可 以 对 环境 进行 很 好 的 控制 ， 设 备 的 价格 也 是 合理 的 。 
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第 2 章 图 像 生 成 与 图 像 表 示 


人 类 关于 外 部 世界 的 大 量 信息 是 通过 视觉 获得 的 。 物 体 表 面 的 反射 光 或 者 通过 物体 的 透 
射 光 ， 在 人 类 双眼 的 视网膜 上 形成 图 像 。 根 据 这 一 对 图 像 就 能 得 出 三 维 环境 的 结构 信息 。 成 
像 的 要 素 是 : (a) 物体 所 在 的 场景 ，(b) 光照 条 件 ，(c) 对 反射 光 或 透射 光 的 感 测 。 

本 章 的 主要 目的 是 说 明 传 感 器 如 何 产生 2D 或 3D 场 景 的 数字 图 像 。 对 于 自然 界 中 的 物体 ， 
其 反射 光 或 者 透射 光 可 通过 不 同 的 成 像 设 备 进行 检测 。2D 数 字 图 像 是 经 物体 反射 或 者 传播 的 
光 强 阵列 。 用 机 器 或 计算 机 程序 对 该 图 像 进 行 处 理 ， 从 而 对 场景 做 出 判定 。 通 常 2D 图 像 是 3D 
场景 的 一 种 投影 ， 这 种 表示 方法 在 机 器 视觉 和 本 书 中 常常 用 到 。 在 本 章 末 ， 讨 论 3D 环 境 结构 
和 2D 图 像 结 构 之 间 的 关系 。 

标注 星 号 (*) 的 内 容 主 要 涉及 一 些 技术 性 细节 ， 不 太 感 兴趣 的 读者 可 以 跳 过 不 看 。 

2.1 光线 感 测 

许多 科学 史 可 以 根据 测量 和 产生 电磁 辐射 的 设备 发 展 史 来 述说 ， 如 无 线 电波 、X 射 线 、 微 
波 等 。 人 了 眼 感 受 器 中 的 化 学 物质 ， 能 感 测 的 光波 范围 大 约 从 400nm 的 紫色 到 800nm 的 红色 。 蛇 
类 和 CCD 传 感 器 (参见 图 2-2) 能 够 感 测 到 大 于 800nm 的 红外 波长 。 有 的 装置 能 检测 波长 很 短 
的 X 射 线 ， 也 有 的 能 检测 无 线 电 长 波 。 不 同 波长 的 辐射 光 有 不 同 的 性 质 ， 如 X 射 线 能 够 穿 透 人 
类 骨骼 ， 而 波长 较 长 的 红外 光 甚 至 不 能 穿 透 云层 。 

图 2-1 是 普通 摄影 的 简单 模型 。 被 单 光源 (太阳 或 镁 光 灯 ) 照射 的 面 元 ， 疝 摄像 机 方向 反 
射 光线 ， 摄 像 机 胶片 上 的 化 学 物质 发 生 感 光 反 应 。 更 详细 的 内 容 在 第 6 童 中 讨论 。 物 体 表面 的 
光 反 射 和 光 生 成 机 制 ， 产生 可 见 范 围 的 光波 。 本 书 会 涉及 很 多 电磁 辐射 的 性 质 ， 但 通常 只 进 
行 定性 分 析 ， 详 细 的 定量 分 析 请 参考 物理 学 或 光学 方面 的 书籍 。 应 用 领域 的 工程 师 需要 了 解 
一 些 感光 材料 、 光 辐射 和 传感器 方面 的 知识 。 

点 光源 


表面 反射 






摄像 机 


传 感 元 件 


图 2-1 对 单 光源 照射 的 反射 
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2.2 成 像 设 备 

产生 数字 图 像 的 设备 有 很 多 种 ， 它 们 的 检测 原理 和 机 电 设 计 是 不 同 的 。 本 章 介 绍 几 种 不 
同 的 传感器 ， 最 常用 的 在 本 节 讨 论 ， 其 他 的 则 作为 选读 内 容 在 2.9 节 介绍 。 我 们 重点 放 在 传 感 
器 的 主要 功能 和 概念 方面 ， 把 技术 性 信息 作为 课外 阅读 内 容 。 
2.2.1 CCD 摄 像 机 

图 2-2 显 示 了 用 电 茶 而 合 器 件 (CCD) 技术 制作 的 摄像 机 ， 这 是 机 器 视觉 系统 最 灵活 、 最 
通用 的 输入 装置 。CCD 摄 像 机 非常 像 家 庭 用 的 35mm 胶 片 相机 ， 只 不 过 在 成 像 平面 上 使 用 转化 
光 能 为 电荷 的 微小 固态 感光 元 ， 代 替 了 能 进行 光学 反应 的 化 学 胶片 。 每 个 感光 元 把 按 收 到 的 
光 能 转换 为 电荷 。 首 先 把 所 有 的 感光 元 清 零 ， 然 后 根据 光照 强度 感光 元 产生 累积 电 依 。 可 以 
用 快门 来 控制 感光 时 间 ， 也 可 以 不 用 。 成 像 平 面 就 像 数字 存储 器 ， 能 通过 计算 机 逐 行 读 出 所 
存 的 信息 。 图 中 显示 了 一 台 简 单 的 黑白 摄像 机 情况 。 


同步 和 地 址 





到 帧 组 
存 区 


到 电 
视 机 


图 2-2 CCD 摄 像 机 拍摄 一 个 花瓶 。 离 散 的 感光 元 转换 光 能 为 电荷 ， 

输入 到 计算 机 时 ， 电 荷 对 应 一 个 比较 小 的 数 

如 采 数 字 图 像 是 500 行 和 500 列 ， 灰 度 值 占 一 个 字 节 ， 则 产生 250 000 字 节 的 存储 阵列 。 
CCD 摄 像 机 一 般 与 称 为 帧 捕捉 证 (frame grabber) 的 计算 机 板 卡 相连 ， 帧 捕捉 卡 具 有 图 像 存 
储 器 ， 也 许 还 能 对 摄像 头 进行 控制 。 新 的 设计 支持 直接 数字 通信 (如 采用 IEEE 1394 标 准 )。 
数字 摄像 机 自身 带 有 能 存放 几 十 帧 图 像 的 内 存 ， 有 的 还 带 有 软盘 。 任 何 时 候 都 可 以 把 这 些 图 
像 输入 到 计算 机 中 进行 处 理 。 图 2-3 是 一 个 计算 机 系统 示意 图 ， 同 时 具有 摄像 机 输入 和 图 像 输 
出 。 这 是 工业 视觉 或 者 医学 成 像 的 典型 系统 ， 也 是 典型 的 多 媒体 计算 机 系统 ， 配 有 为 电视 会 
议 摄像 的 廉价 的 摄像 头 。 帧 缓存 区 (frame buffer) 作为 高 速 图 像 存储 器 在 此 起 着 中 心 作用 。 
一 幅 图 像 经 模 数 转 换 后 ， 其 数字 形式 存储 在 帧 缓存 区 内 ， 于 是 就 可 以 进行 图 像 显示 ， 以 及 使 
用 各 种 计算 机 算法 进行 处 理 。 帧 缓存 区 实际 上 可 存储 好 几 幅 图 像 或 者 它们 的 衍生 图 像 。 

处 理 数字 图 像 的 计算 机 程序 把 像素 值 表 示 为 Ifr, e] 或 I[r][c]， 其 中 I 是 数组 名 ，r 和 e 分 别 是 
行 号 和 列 号 。 本 书 在 算法 中 采用 这 样 的 表示 方式 。 有 的 摄像 机 可 以 通过 设置 产生 二 值 图 像 
(binary image)， 像 素 值 0 代 表 瞳 、1 代 表 亮 ， 或 者 1 代表 上 暗 、0 代 表 亮 。 通 过 简单 计算 也 可 以 产 
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‘BAUR, BUPA SEA (threshold) 的 所 有 像素 值 取 为 0， 把 大 于 等 于 阔 值 :的 像素 值 
取 为 1。 第 1 章 给 出 了 一 个 例子 ， 对 磁 共 振 图 像 进行 国 值 化 ， 以 对 比 高 、 低 血 流量 。 


机 器 视觉 
算法 


帧 缓存 区 





图 形 显示 

















3D 场 景 





CCD 阵 列 


图 2-3 帧 缓存 区 在 图 像 处 理 中 的 中 心 作用 


2.2.2 图 像 形成 

成 像 的 几何 原理 可 以 概括 为 3D 场 景 中 每 个 点 通过 投影 中 心 (center of projection) 或 镜头 
Ps (lens center) 投影 到 成 像 平面 上 。 图 像 点 的 光 强 与 三 维 表 面 点 辐射 出 来 的 光 强 有 关 ， 我 
们 后 面 会 看 到 这 种 关系 非常 复杂 。 这 种 投影 模型 在 物理 上 是 合适 的 ， 因 为 利用 带 小 孔 而 无 镜 
头 的 摄像 头 盒 ， 能 够 实际 做 出 针 孔 (pin-hole) 摄像 头 来 。CCD 摄 像 机 采用 的 镜头 通常 与 家 用 
35mm 胶 片 相机 的 镜头 一 样 ， 具 有 两 个 凸 面 的 单 镜 头 ， 见 图 2-2 所 示 。 实 际 上 多 数 镜头 是 由 两 
个 以 上 的 折射 面 复合 而 成 的 ， 有 两 点 很 重要 : 首先 ， 镜头 是 光线 采集 器 。 来 自 3D 点 的 光线 ， 
经 过 3D 点 到 镜头 的 整个 锥 体 空 间 ， 然 后 会 聚 到 图 像 上 的 一 点 。 图 2-2 中 ， 三 道光 线 从 花瓶 的 顶 
部 投射 出 来 ， 它 们 确定 了 镜头 采集 光线 的 锥 体 空间 。 对 于 其 他 的 场景 点 也 存在 类 似 的 锥 体 空 
间 。 由 于 镜头 几何 缺陷 、 不 同 颜色 光 弯 曲 不 同 及 其 他 影响 因素 ， 锥 体 空 间 实际 上 在 成 像 平 面 
上 产生 一 个 有 限 而 模糊 的 班 ， 称 为 模糊 图 (circle of confusion) ; 其 次 ，CCD 传 感 器 阵列 由 
物理 上 分 散 的 感光 元 而 不 是 非 无 限 小 的 点 构成 。 于 是 每 个 感光 元 接收 到 3D 表 面 上 多 个 相 邻 点 
发 出 的 光线 。 这 两 个 效应 使 图 像 变 得 模糊 ， 影 响 了 图 像 的 清晰 度 和 可 被 感 测 的 最 小 场景 细节 
的 尺寸 。 

CCD 阵 列 制作 在 蕊 片上 ， 典 型 的 芯片 尺寸 约 为 cm x 1cem。 如 果 阵列 有 640 x 640 个 像素 或 
512 x 512 个 像素 ， 则 每 个 像素 的 实际 宽度 约 为 0.001 英 寸 。 如 图 2-4 所 示 ， 还 有 其 他 把 CCD 感 
光 元 分 布 在 图 像 平 面 上 (或 图 像 线 上 ) 的 实用 方法 。 线 状 阵列 可 用 在 只 需要 测量 物体 宽度 的 [24 | 
情况 ， 或 者 用 摄像 机 成 像 和 检测 连绵 布匹 的 场合 。 线 状 阵列 的 一 行 ， 可 以 有 1000 到 5000 个 像 
素 。 这 样 一 个 阵列 能 用 在 推 扫 方 式 ， 线 状 传感器 横着 移 过 被 扫描 的 材料 ， 就 像 用 手持 扫描 仪 
或 高 精度 机 械 扫 描 仪 如 平台 扫描 仪 扫描 一 样 。 目 前 许多 平台 扫描 仪 仅 用 几 百 美元 就 能 买 到 ， 
通过 扫描 彩色 图 片 或 印刷 媒体 得 到 数字 图 像 。 柱 状 镜头 一 般 用 来 把 真实 世界 中 的 一 条 直线 聚 
焦 到 线 状 CCD 阵 列 上 去 。 圆 形 阵列 可 方便 地 用 于 检查 诸如 钟表 或 速度 表 的 模拟 刻度 盘 。 把 目 
标 在 摄像 头 前 放 好 ， 圆 形 阵列 扫描 得 到 指针 的 图 像 。 图 2-4c 是 令 人 感 兴趣 的 ROSA 分 块 ， 对 所 
有 落 进 遍 状 或 环 状 区 域 的 光 能 ， 提 供 一 个 硬件 集成 解决 方案 。 它 原来 的 设计 是 为 了 量化 一 幅 
图 像 的 能 谱 ， 但 也 可 能 有 其 他 简单 的 用 途 。 芯 片 制造 技术 为 实现 客户 设计 的 其 他 方案 提供 了 


机 会 。 
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a) 圆 形 b) 线 状 c) ROSA 


图 2-4 其 他 实用 的 几何 阵列 
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SAW) 观察 CCD 摄 像 机 的 结构 

如 果 你 有 一 部 CCD 摄 像 机 ， 并 获准 对 它 的 构造 进行 研究 。 外 下 镜头 并 观察 摄像 机 的 结构 。 
它 有 快门 来 隔断 所 有 的 光线 吗 ” 它 有 光圈 来 改变 光线 通过 的 锥 体 空间 大 小 吗 ?有 办 法 改变 焦 
距 吗 ?焦距 就 是 镜头 与 CCD 之 间 的 距离 。 检 查 CCD 阵 列 ， 主 动感 知 区 域 有 多 大 ?你 能 看 到 音 
个 的 感光 元 吗 ?需要 放大 镜 吗 ? 








假定 要 用 CCD 摄 像 机 读 出 模拟 钟表 上 的 数字 ，CCD 摄 像 机 正 对 着 钟表 。 钟 表 图 像 的 中 心 
位 于 256 x 256 数 字 图 像 的 中 心 ， 时 针 的 宽度 是 分 针 的 2 倍 ， 但 长 度 是 分 针 的 0.7 倍 。 为 了 确定 
钟表 指针 在 图 像 上 的 位 置 ， 需 要 以 圆周 方式 扫描 数字 图 像 的 像素 。(a) 在 半径 为 R， 圆 心 在 图 
像 中 心 I[128,128] 的 圆周 上 ， 对 像素 I[r,c] 给 出 计算 r(t)，c(t) 的 公式 ， 其 中 t 是 到 I[r,c] 的 光线 与 
水 平 轴 之 间 的 夹 角 。(b) 对 :进行 控制 ， 以 便 生成 数字 圆周 的 唯一 像素 序列 ， 这 有 问题 吗 ? 
(*c) 阅读 计算 机 图 形 学 方面 的 课外 书 ， 写 报告 说 明 产 生 数字 圆周 的 实际 方法 。 

2.2.3 视频 摄像 机 

供 人 类 消遣 的 视频 摄像 机 ， 以 每 秒 30 帧 的 速度 记录 图 像 序列 ， 除 了 每 幅 图 像 或 每 帧 图 像 
含有 空间 特征 外 ， 图 像 序列 能 够 表达 目标 随时 间 的 运动 情况 。 采 用 每 秒 60 个 半 帧 的 场 频 ， 主 
要 是 为 了 让 人 有 眼 感觉 不 出 帧 与 帧 之 间 的 切换 。 前 半 帧 扫描 奇数 行 ， 后 半 帧 扫描 偶数 行 ， 连 续 
交替 。 声 音信 号 也 作 了 编码 。 供 机 器 使 用 的 摄像 机 ， 能 够 以 任何 速率 记录 图 像 ， 而 不 需要 采 
用 半 帧 技术 。 

图 像 序列 的 各 帧 之 间 有 分 离 标记 ， 为 了 减少 数据 量 经 常用 到 一 些 图 像 压 缩 技术 。 制 定 的 
模拟 电视 标准 ， 可 以 满足 多 种 需求 。 最 有 意义 的 是 同一 信号 不 仅 能 用 彩色 电视 播放 ， 也 能 用 
黑白 电视 播放 ， 并 且 还 能 携带 声音 或 文字 信息 。 具 体内 容 请 感 兴趣 的 读者 阅读 2.5 节 的 电视 和 
MPEG 编 码 标准 。 这 里 继续 把 数字 视频 作为 二 维 数字 图 像 序列 。 

机 器 视觉 中 的 CCD 摄 像 机 技术 ， 常 常 受到 为 人 类 消遣 而 制定 的 显示 标准 的 影响 。 首 先 ， 
视频 序列 中 奇 、 偶 帧 的 交错 ， 可 以 让 人 眼 感到 画面 流畅 ， 却 为 机 器 视觉 带 来 了 不 必要 的 麻 
烦 ; 其 次 ， 许 多 CCD 阵 列 中 像素 的 宽 高 比 为 4:3， 这 是 因为 大 多 数 为 人 设计 的 显示 器 的 尺寸 比 
例 是 4:3。 正 方形 像素 和 统一 的 尺度 参数 更 有 利于 机 器 视觉 。 巨 大 的 消费 市 场 使 摄像 装置 为 人 
类 消 遗 而 设计 ， 机 器 视觉 的 研发 者 不 得 不 适应 这 种 现状 ,或 者 为 制造 有 限 数 量 的 摄像 装置 付 
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出 更 多 的 代价 。 
2.2.4 ABR 
人 有 眼 大 致 相当 于 球形 摄像 机 ， 靠 近 外 面 的 是 焦距 为 20mm 的 晶状体 ， 在 视网膜 (retina) 
上 形成 图 像 。 视 网 膜 位 于 晶状体 的 对 面 ， 附 着 在 球面 内 侧 (参见 图 2-5)。 通 过 调节 瞳孔 
(pupil) 的 大 小 ， 虹 膜 (iris) 对 穿 过 晶状体 的 光线 多 少 进行 控制 。 每 只 眼睛 有 上 亿 个 感受 器 
细胞 ， 这 比 一 般 CCD 阵 列 中 的 感光 元 要 多 得 多 。 此 外 感受 细胞 非 均 匀 地 分 布 在 视网膜 上 。 靠 
近视 网 膜 中 心 的 一 个 区 域 称 为 中 央 钙 (fovea), 排列 着 密集 的 彩色 感受 器 , 称 为 锥 状 体 (cone). 
离开 中 心 越 远 , 锥 状 体 越 少 ， 而 黑 - 和 白 感受 器 即 杆 状 体 (rod) 越 多 。 对 于 3D 表 面 上 的 一 个 点 ， 
在 中 央 凹 上 成 像 ， 人 眼 感受 到 的 是 对 应 三 原色 的 三 个 分 离 的 光 强 。 因 为 来 自 该 点 的 光线 落 在 
三 种 不 同类 型 的 锥 状 体 上 ， 而 每 个 类 型 的 锥 状 视网膜 
体 具有 特殊 的 色素 ， 该 色素 对 某 个 波长 范围 内 
的 光线 具有 敏感 性 。 人 的 眼 - 脑 系统 最 令 人 惊 
奇 的 一 点 是 ， 能 够 平稳 感受 到 不 间断 而 且 稳定 
的 三 维 世界 ， 即 使 眼球 在 不 断 地 转动 也 如 此 。 
人 类 特殊 的 视觉 感知 系统 需要 眼球 不 断 地 快速 
运动 。 人 脑 的 相当 一 部 分 功能 是 进行 视觉 信息 
处 理 。 人 类 视觉 系统 的 其 他 特征 将 在 本 书 必要 
的 地 方 进行 讨论 ， 特 别 是 有 关 颜 色 感 知 的 更 详 
细 内 容 在 第 6 章 进行 讨论 。 





图 2-5 人 眼 摄像 机 示意 图 (更 详细 的 内 容 
参见 Levine1985 年 的 著作 ) 








假定 人 的 眼球 直径 是 1 英寸 ，1 亿 个 杆 状 体 和 锥 状 体 分 布 在 其 内 侧面 的 1/r 面 积 上 。 被 单个 
感受 器 所 覆盖 的 平均 面积 有 多 大 ? (要 记 住 中 央 凹 中 的 感受 器 分 布 比 这 平均 值 要 稠密 得 多 ， 
而 外 围 的 感受 器 分 布 则 稀疏 得 多 。) 
2.3 数字 图 像 中 的 问题 * 

存在 几 方 面 因素 会 对 感 测 过 程 产 生 影响 ， 下 面 列 出 的 是 比较 重要 的 几 个 方面 。 我 们 前 面 
所 讲 的 理想 化 情况 只 是 对 真实 物理 系统 的 一 种 近似 。 这 些 因 素 对 图 像 造成 的 总 体 效果 是 ， 图 
像 的 几何 形状 和 亮度 两 方面 都 发 生 畸 变 。 第 11 章 介绍 纠正 畸变 的 一 些 方法 ， 但 更 常见 的 是 不 
考虑 这 些 影响 而 直接 做 出 决策 。 
2.3.1 几何 畸变 

图 像 处 理 过 程 中 造成 几何 畸变 (geometric distortion) 的 影响 因素 有 几 个 方面 ， 如 有 缺陷 
的 镜头 使 来 自 场景 面 元 的 光束 不 沿 预期 的 光路 弯曲 ， 焦 距 小 的 镜头 常常 发 生 桶 状 畸 变 。 如 图 
2-6 的 右 图 所 示 ， 场 景 外 围 的 直线 发 生 远离 图 像 中 心 的 弯曲 。 
2.3.2 散射 

辐射 光 通 过 介质 时 会 发 生 弯曲 或 散射 (scattering) 现象 。 航 测 图 像 和 卫星 图 像 特别 容易 发 
生 这 种 情况 ， 水 蒸气 和 温度 梯度 使 大 气 层 具有 类 似 透镜 的 特性 。 
2.3.3 光 晕 

由 于 检测 元 件 是 离散 的 ， 如 CCD 感 光 元 ， 它 们 相互 间 并 不 能 做 到 完全 绝缘 ， 一 个 感光 元 
上 的 电荷 会 泄漏 到 相 邻 的 感光 元 中 。 如 图 2-6 的 中 图 所 示 ， 这 种 电荷 泄漏 反映 在 图 像 平 面 上 ， 


[26] 
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结果 一 个 很 亮 的 区 域 向 外 展开 ， 生 成 一 条 比 它 实际 尺寸 要 大 的 明亮 “ 花 条 ”， 因 此 称 这 种 现象 
为 光 尝 (blooming). 
2.3.4 _ CCD 差异 

由 于 制造 上 的 问题 ， 不 同 的 感光 元 对 于 同样 的 光 强 会 产生 不 同 的 响应 。 为 了 精确 地 测量 
光 强 ， 应 该 用 均匀 的 光照 进行 标定 ， 确 定 出 针对 每 个 像素 的 比例 矩阵 s[r, cl] 和 平移 矩阵 t[r， c], 
使 光 强 修正 为 J[r, c] = s[r, clir, c] + tir, ce]。 在 极端 情况 下 ，CCD 阵 列 中 可 能 有 一 些 失灵 感 
HA (dead cell) ， 它 们 对 光照 不 发 生 响 应 。 这 种 缺陷 能 够 通过 检查 检测 出 来 ， 软 件 的 补救 措 
施 是 把 失灵 感光 元 的 响应 用 相 邻 感光 元 响应 的 平均 值 代 替 。 
2.3.5 削 波 与 逆 变 

模 / 数 转换 时 ， 非 常 高 的 光 强 会 被 限制 到 一 个 最 大 值 ， 否 则 其 高 位 数 就 会 丢失 ， 结 果 使 数 
值 逆 变 成 低 强 度 的 编码 。 在 灰 度 图 像 中 ， 逆 变 的 结果 表现 为 明亮 的 区 域内 带 有 较 暗 的 核心 
点 ; 在 彩色 图 像 中 ， 则 产生 明显 的 颜色 变化 。 图 2-6 的 左 图 反映 了 逆 变 现象 ， 亮 线 的 交点 处 有 

一 些 暗 点 ， 比 两 条 亮 线 都 要 暗 。 


2.3.6 彩色 畸变 

不 同 波长 的 光线 通过 透镜 时 ， 产 生 不 同 程度 的 弯曲 (透镜 的 折射 率 (index of refraction) 
与 波长 有 关 ), 结果 来 自 同一 场景 点 的 不 同 波 长 的 光 能 , 在 检测 器 上 可 能 形成 几 个 分 开 的 像素 。 
例如 ， 场 景 外 围 黑白 分 明 的 边界 ， 会 在 图 像 上 形成 几 个 像素 宽 的 亮度 变化 斜坡 (ramp). 
2.3.7 量化 效应 

数字 化 处 理 过 程 中 ， 光 强 是 从 场景 的 离散 区 域 中 采集 的 ， 光 强 值 又 被 映射 为 离散 的 灰 度 
值 ， 所 以 进行 混合 和 舍 入 时 量化 效应 比较 明显 。 下 一 节 更 详细 地 讨论 这 些 问 题 。 





图 2-6 各 种 畸变 的 图 像 
a) 模 / 数 转换 期 间 ， 发 生 竞 线 交叉 点 上 的 灰 度 级 前 波 
b) 亮点 周围 的 像素 光 强 因 光 时 而 增 大 
c) 焦距 很 小 时 经 常 出 现 的 桶 状 畸变 
2.4 图 像 函数 与 数字 图 像 
现在 讨论 一 些 概念 和 符号 ， 这 对 图 像 运算 的 理论 与 编程 都 很 重要 。 


2.4.1 图 像 类 型 
在 图 像 计算 中 ， 要 了 解 模拟 图 像 (analog image) 和 数字 图 像 (digital image) 两 个 概念 。 
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图 像 函 数 是 一 个 数学 模型 ， 经 常用 于 分 析 图 像 ， 我 们 一 般 把 图 像 看 成 是 双 变 量 的 函数 。 这 样 ， 
分 析 图 像 就 可 以 用 所 有 的 函数 分 析 方 法 。 数 字 图 像 只 是 具有 离散 值 的 二 维和 矩形 阵列 。 图 像 空 
间 位 置 和 强度 值 都 被 量化 成 离散 的 数值 ， 这 样 图 像 就 能 够 存储 在 2D 计 算 机 存储 器 中 。 一 般 像 
素 强度 用 8 位 (1 字 节 ) 数 表示 ， 取 值 范 围 为 0 到 255。256 级 一 般 是 可 从 传感器 获取 的 全 部 精度 ， 
通常 足以 满足 消费 者 需要 。 以 字 节 为 单位 也 方便 计算 机 的 存储 与 运算 。 例 如 ， 一 幅 图 像 在 C 程 
序 中 可 被 说 明 为 charI[512][512]。 彩 色 图 像 的 每 个 像素 需要 三 个 8 位 数值 来 表示 。 在 一 些 医学 
应 用 中 ， 采 用 10 位 编码 方法 ， 允 许 有 1024 个 不 同 的 强度 值 ， 这 已 经 接近 于 人 类 分 辨 的 极限 了 。 

为 了 理解 重要 的 概念 和 建立 一 套 全 书 通 用 的 表示 方式 ， 下 面 对 儿 个 概念 进行 定义 。 首 先 
从 理想 的 光学 系统 产生 理想 的 模拟 图 像 开 始 ， 假 设 精度 是 无 限 的 。 在 离散 位 置 上 对 模拟 图 像 
采样 ， 并 把 各 位 置 处 的 图 像 强 度 用 离散 数值 表示 ， 于 是 形成 数字 图 像 。 所 有 实际 图 像 要 受到 
物理 过 程 的 影响 ， 位 置 和 强度 的 精度 都 有 一 定 的 限制 。 


定义 2 ”模拟 图 像 是 指 二 维 图 像 F(x, y)， 其 空间 参数 x 和 y 具 有 无 限 精 度 ， 在 每 个 空间 
A (x,y) 的 光 强 也 具有 无 限 精度 。 


定义 3 ”数字 图 像 是 指 二 维 图 像 I(r, c)， 用 离散 的 二 维 光 强 阵列 表示 ， 光 强 的 精度 是 
有 限 的 。 


把 图 像 的 数学 模型 看 成 是 两 个 实际 空间 参数 的 函数 ， 在 描述 图 像 和 定义 图 像 运 算 时 都 非 
常 有 用 。 图 2-7d 显 示 ， 如 何在 各 图 像 点 [x, y] 处 ， 通 过 对 连续 图 像 进 行 采样 得 到 图 像 像素 。 如 
果 在 X 方 向 ，w 距 离 内 有 MM 个 采样 点 ， 则 像素 间 的 x 间距 Ax 为 w/MM。 图 2-7 给 出 了 像素 中 心 点 与 
强度 阵列 中 的 某 个 元 素 之 间 的 关系 。 








F [i+ 1, j] 
I [0, 0] Y F[M-1N-1] y [Wi2,H/2] F{i, j] 
F (0, 0] [-wn, -um | o0 [xo yo] 
[xo + iAx, yo + jAy] 
a) b) c) d) 


图 2-7 不 同 的 图 像 坐标 系 
a) 与 显示 屏 一 致 的 光 棚 坐标 系 ， 行 列 坐标 原点 [0, 0] 位 于 左上 角 
b) 第 卡尔 坐标 系 ， 原 点 [0, 0] 位 于 左下 角 
c) 第 卡尔 坐标 系 ， 原 点 [0, 0] 位 于 图 像 中 心 
d) 像素 中 心 [x, y] 与 阵列 元 素 I[i, 引 所 在 的 面积 元 素 之 间 的 关系 
定义 4 ”图像 函 数 fx, y) 是 图 像 的 一 种 数学 表示 方法 ， 它 是 两 个 空间 变量 x 和 y 的 函数 。 
x 和 Hy 是 实数 ， 确 定 图 像 上 的 一 点 。f(x, y) 通常 也 是 实数 ， 确 定 图 像 在 点 (x, y) 处 的 
强度 。 


定义 5 灰 度 图 像 是 单 色 数字 图 像 I[r, ce] ， 其 中 每 个 像素 只 有 一 个 强度 值 。 
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定义 6 多 谱 图 像 是 二 维 图 像 M[x, y], 在 每 个 空间 点 或 像素 位 置 存在 一 个 强度 值 向 量 。 

如 果 是 一 幅 彩 色 图 像 ， 则 该 向 量 有 三 个 元 素 。 

定义 7 二 值 图 像 是 指 所 有 像素 值 要 么 为 0 要 么 为 1 的 数字 图 像 。 

定义 8 ”标记 图 像 L[r, e] 是 数字 图 像 ， 其 中 的 像素 值 是 有 限 的 字符 标记 。 像 素 的 字符 

值 表 示 对 该 像素 作 某 个 判定 的 结果 。 相 关 的 概念 有 主题 图 像 和 伪 彩 色 图 像 。 

讨论 图 像 中 的 像素 、 用 计算 机 进行 图 像 运 算 、 用 数学 公式 描述 图 像 、 或 相对 于 设备 坐标 
讨论 图 像 都 要 用 到 坐标 系 。 本 书 内 外 常用 的 几 种 坐标 系 如 图 2-7 所 示 。 遗 憾 的 是 ， 不 同 的 计算 
机 工具 所 用 的 坐标 系 也 不 同 ， 用 户 必须 习惯 使 用 这 些 坐 标 系 。 还 好 我 们 所 讲 的 概念 并 不 受 坐 
标 系 的 约束 。 在 本 书 讨 论 概 念 时 ， 一 般 使 用 与 数学 课本 一 致 的 笛 卡 尔 坐 标 系 ， 而 图 像 处 理 算 
法 则 通常 使 用 光栅 坐标 系 。 
2.4.2 图 像 量化 与 空间 度量 

如 图 2-2 所 示 ， 数 字 图 像 的 每 个 像素 表示 实际 图 像 中 某 个 基本 区 域 的 采样 结果 。 如 果 把 该 
像素 从 图 像 平 面 反 投影 到 场景 中 的 实物 上 ， 那 么 场景 元 素 的 大 小 就 是 传感器 的 标 称 分 辨 率 
(nominal resolution )。 例 如 一 张 10in.S 见方 的 纸 片 ， 对 应 500 x 500 的 数字 图 像 ， 则 传感器 的 
标 称 分 状 率 就 是 0.02in.。 如 果 场 景 的 深度 变化 比较 大 ， 这 个 概念 就 没有 意义 ， 关 为 标 称 分 辩 
率 随 着 深度 和 表面 方向 而 变化 。 成 像 传感器 的 视 场 (field of view, FOV) 是 对 传感器 能 看 到 
的 场景 范围 的 度量 。 传 感 器 的 分 辨 率 (resolution) 则 与 它 进行 空间 测量 或 细微 特征 检测 的 精 
度 有 关 。( 如 果 使 用 得 当 再 加 上 模型 信息 ， 一 幅 500 x 500 的 像素 图 像 作出 的 测量 精度 可 达 
1/5000， 这 个 精度 称 为 亚 像素 分 辨 率 (subpixel resolution), ) 


定义 9 CCD 传 感 器 的 标 称 分 辩 率 指 图 像 平面 上 的 一 个 像素 所 对 应 的 场景 元 素 的 大 小 。 


定义 10 分辨 率 是 指 传感器 的 测量 精度 ， 但 定义 方式 多 种 多 样 。 如 果 在 实际 三 维 空 

间 定 义 ， 则 可 能 就 是 标 称 分 辩 率 ， 如 “这 人 台 扫 描 仪 的 分 辩 率 是 地 面 上 的 lm” ， 或 者 是 

感 测 图 像 中 每 毫米 距离 能 分 开 或 区 分 出 来 的 线 而 数 。 一 个 完全 不 同 的 概念 是 有 效 的 

像素 数 ， 如 “这 部 摄像 机 的 分 辩 率 是 640 x 480 像 素 "。 后 面 的 定义 有 个 好 处 ， 它 提 到 

视 场 能 被 分 成 多 少 部 分 ， 而 这 与 精密 测量 和 覆盖 场景 区 域 的 能 力 有 关系 。 如 果 测 量 

精度 小 于 标 称 分 辩 率 ， 则 称 为 亚 像素 分 辨 率 。 

图 2-8 是 同一 个 人 脸 的 四 幅 图 像 ， 主 要 是 为 了 强调 分 辩 率 的 影响 。 用 64 x 64 的 分 辩 率 我 们 
可 以 识别 出 熟悉 的 人 脸 ， 用 32 x 32 的 分 辩 率 也 许 也 能 识别 出 来 ， 但 是 16 x 16 就 不 够 用 了 。 在 
利用 计算 机 视觉 解决 问题 时 ， 采 用 的 分 辩 率 要 合适 。 分 辩 率 太 低 会 影响 识别 效果 或 者 测量 不 
准 ， 分 辩 率 太 高 则 会 使 算法 过 慢 而 且 浪费 内 存 空间 。 

定义 11 ”传感器 的 视 场 是 它 能 感知 到 的 场景 的 大 小 ， 例 如 10in. x 10in.。 由 于 这 个 数字 会 

随 着 深度 而 变 ， 因 此 采用 角 视 场 (angular field of view) 或 许 更 有 意义 ， 如 55° x 40°, 

由 于 图 像 中 的 一 个 像素 度量 的 是 实际 场景 中 的 一 个 区 域 而 不 是 一 个 点 ， 所 以 像素 值 经 常 
是 不 同 目标 的 混合 结果 。 例 如 卫星 图 像 中 每 个 像素 对 应 地 面 上 10m x 10m 的 一 个 点 。 那 么 像素 
值 可 能 是 水 、 土 壤 和 植被 组 合 的 结果 。 在 生成 二 值 图 像 时 间 题 就 显得 严重 了 。 考 虑 前 面 一 张 
纸 成 像 的 例子 ， 纸 上 每 英寸 分 布 10 个 字母 。 许 多 像素 将 重 释 一 条 字符 边界 ， 因 此 得 到 背景 的 
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高 强度 光线 与 字符 的 低 强度 光线 的 混和 结果 。 最 后 的 结果 是 介 于 背景 和 字符 之 间 的 某 个 值 ， 
可 能 被 置 为 0 或 者 1。 不 管 是 哪个 值 ， 它 都 不 是 完全 正确 的 。 





c) d) 


图 2-8 两 个 人 脸 的 四 幅 数 字 图 像 (图 片 由 Frank Biocca 提 供 ) 

a) 127 x 176 

b) 126 x 176， 对 a 中 每 一 个 2 x 2 邻 域 做 平均 ， 对 均值 复制 四 次 生成 一 个 2 x 2 的 平均 块 ， 从 而 生成 图 像 

c) 124 x 176， 用 同样 的 方式 由 图 像 b 生 成 

d) 120 x 176， 用 同样 的 方式 由 图 像 c 生 成 。 有 效 的 标 称 分 辨 率 分 别 是 (127x176), (63x88), (31x44), (15 

x 22) (斜视 观察 呈 块 状 的 图 像 ， 这 种 方式 可 用 来 让 分 明 的 区 域 边界 变 得 模糊 ) 

图 2-9 是 量化 问题 的 一 个 具体 例子 。 图 中 的 左边 是 一 个 10 x 10 的 2D 阵 列 ， 其 中 的 黑色 背景 
亮度 值 为 0， 白 色 砖 块 亮度 值 为 8。 砖 块 构成 的 模式 包括 两 个 亮点 和 两 条 宽度 不 同 的 亮 线 。 如 
果 场 景 的 图 像 落 到 5 x 5 的 CCD 阵 列 上 ， 每 2 x 2 的 方块 邻 域 精确 地 落 到 CCD 的 一 个 感光 元 件 上 ， 
结果 就 产生 图 2-9b 所 示 的 数字 图 像 。 左上 角 的 CCD 感 光 元 感知 到 的 强度 为 2 = (0 + 0 + 0 + 8)/4, 
是 四 个 方块 的 平均 强度 。 右 上 角 的 四 个 亮 块 落 到 两 个 CCD 感 光 元 件 上 ， 每 个 感光 元 集成 两 个 
亮 块 和 两 个 暗 块 的 强度 。 强 度 为 8 的 单行 亮 块 经 CCD 变 换 后 ， 成 为 图 像 上 强度 为 4 的 一 行 像素 。 
强度 为 8 的 双 行 亮 块 经 CCD 变 换 后 ， 成 为 图 像 上 强度 为 4 的 两 行 像素 。 而 场景 中 的 两 条 线 在 图 
像 中 混合 在 一 起 。 如 果 取 t = 3 对 图 像 进行 阔 值 化 ， 那 么 含 一 个 亮 块 的 亮度 模式 将 在 图 像 中 消 
失 ， 而 其 他 三 个 特征 区 域 将 融合 成 一 个 区 域 ! 如 果 摄 像 机 在 水 平和 垂直 两 个 方向 上 都 平移 一 
块 砖 的 位 移 ， 则 会 产生 图 2-9d 的 结果 。 由 四 块 砖 组 成 的 亮 区 形状 在 d 中 的 变换 方式 与 b 中 不 同 ， 
场景 中 的 两 行 亮 线 在 d 中 形成 亮度 斜坡 而 不 像 b 中 是 灰 度 -- 致 的 区 域 。 另 外 d 中 有 三 个 目标 区 域 
而 b 中 只 有 两 个 。 图 2-9 表 明 ， 大 小 近似 一 个 像素 的 场景 特征 ， 其 图 像 是 不 稳定 的 。 

图 2-9 表 明 空 间 量化 效应 (spatial quantization effects) 对 检测 精度 和 检测 能 力 有 较 大 的 影 
响 。 较 小 的 特征 可 能 被 丢失 或 融合 ， 即 使 在 检测 较 大 的 特征 时 ， 也 存在 不 能 恰当 表示 其 空间 范 
围 的 可 能 。 在 砖 块 例子 中 ， 注 意 观 察 四 块 砖 组 成 的 亮 区 ， 成 像 后 对 应 的 不 是 强度 为 4 的 垂直 
CCD 感 光 元 对 ， 就 是 强度 为 4 的 水 平 CCD 感 光 元 对 。 当 通过 阔 值 化 产生 二 值 图 像 时 ， 由 于 混合 
像素 (mixed pixel) 的 伟人 ， 可 以 预测 到 边界 误差 可 高 达 0.5 个 像素 。 这 暗示 两 条 边界 之 间 的 测 
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量 误差 可 能 会 达到 1 个 像素 。 此 外 ， 如 果 要 检测 二 值 图 像 中 的 某 些 特征 ， 该 特征 的 图 像 至 少 要 
有 两 个 像素 那么 大 ， 而 且 包 括 两 目标 之 间 的 间隙 在 内 。 下 面 考 虑 传真 中 的 句号 ， 它 的 图 像 直径 
是 一 个 像素 ， 且 严格 地 落 在 四 个 CCD 感 光 元 会 合 点 的 正中 ， 这 四 个 像素 中 的 每 个 像素 参加 混和 
时 ， 属 于 背景 的 部 分 要 多 于 属于 字符 的 部 分 ， 当 形成 二 值 图 像 时 ， 句 号 就 有 可 能 丢失 ! 








图 2-9 量化 问题 的 例子 
a) 10 x 10 的 砖 块 阵 列 ， 亮 度 值 取 0 或 8 
b) 砖 块 阵列 的 5 x 5 强度 图 像 ， 其 中 每 个 像素 对 应 2 x 2 方块 邻 域 的 平均 亮度 
c) 摄像 机 向 下 、 向 右 移动 一 块 砖 后 感知 到 的 图 像 。 注 意 量 化 的 亮度 值 不 仅 取决 于 实际 像素 的 大 小 ， 而 且 和 在 阵列 
中 的 位 置 有 关 


d) 摄像 机 移动 后 得 到 的 强度 图 像 ， 成 像 方式 与 b 中 一 样 。 为 了 解释 实际 场景 中 的 特征 ， 不 论 是 用 b 还 是 用 d 都 存在 
问题 


定义 12 ”混合 像素 是 一 类 图 像 像素 ， 其 强度 表示 对 真实 世界 多 个 目标 类 型 的 混合 采 
样 结果 。 


习题 2.4 面积 的 变化 

白 纸 上 有 一 黑色 矩形 , 成 像 时 该 矩形 对 应 图 像 上 5.9 x 8.1 的 像素 范围 内 。 生 成 二 值 图 像 时 ， 
根据 像素 中 目标 或 者 背景 成 分 的 多 少 决定 该 像素 值 是 0 或 者 是 1。 变 换 时 和 矩形 的 双边 可 以 与 
CCD 的 行 和 列 平行 。 二 值 图 像 中 的 像素 最 小 面积 是 多 少 ? 最 大 面积 又 是 多 少 ? 
ee cone sania " a 


考虑 印刷 电路 板 上 的 两 根 明亮 的 平行 导线 。 每 根 导线 在 图 像 平面 上 的 宽度 是 0.8 个 像素 。 
会 像 上 个 习题 一 样 ， 在 二 值 图 像 中 出 现 一 根 消失 而 另 一 根 存在 的 情况 吗 ? 请 加 以 解释 。 
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在 第 13 章 中 ， 对 光学 薄 透 镜 方程 进行 了 讨论 ， 并 研究 了 它 与 摄像 机 分 辨 率 、 图 像 模糊 和 
景深 的 关系 。 有 兴趣 的 读者 可 学 习 有 关 章 节 的 内 容 。 讨 论 完 感知 特点 、 分 辩 率 和 混合 像素 的 
概念 之 后 ， 就 具备 了 足够 的 背景 知识 ， 可 以 开始 某 个 二 维 机 器 视觉 应 用 系统 的 研究 工作 。 例 
如 用 显微镜 发 现 一 定 的 目标 ， 检 查 一 块 PC 机 电路 板 ， 或 者 识别 一 个 背光 三 维 目标 的 阴影 。 必 
须 设计 好 成 像 环境 ， 使 得 看 到 的 特征 在 图 像 中 有 适当 的 大 小 。 假 定 考虑 了 从 场景 到 图 像 的 尺 
度 变化 ， 在 图 像 中 没有 保留 明显 的 三 维特 征 ， 那 么 就 用 第 3 章 到 第 10 章 所 讲 的 二 维 方法 分 析 
图 像 。 

习 检测 纸币 的 面值 

设计 专 收 $1、$5、$10 和 $20 面 值 的 自动 售 货 机 传感器 。 你 只 需 建立 一 种 表达 方式 提供 给 
识别 器 ， 不 用 设计 识别 算法 ， 也 不 用 考虑 识别 假 钞 。( 在 回答 之 前 要 进行 一 些 采 样 .) 假定 在 
钞票 进入 机 器 时 ， 必 须 用 线性 CCD 阵 列 进行 数字 化 处 理 。(a) 应 该 使 用 什么 样 的 镜头 和 照 
明 ? (b) 线性 阵列 中 需要 有 多 少 像素 ”请 加 以 解释 。 


2.5 数字 图 像 格式 * 

数字 图 像 在 通信 、 数 据 库 和 机 器 视觉 中 广 为 应 用 ， 并 且 已 经 开发 了 标准 格式 以 便 不 同 的 
硬件 和 软件 能 共享 数据 。 图 2-10 说 明了 这 种 情况 。 遗憾 的 是 仍然 有 几 十 种 不 同 的 图 像 格式 在 
使 用 。 本 节 对 几 种 重要 的 图 像 格式 进行 简单 讨论 。 原 始 图 像 (raw image) 只 是 字 节 流 ， 图 像 
像素 按 一 行 一 行 的 顺序 编码 ， 这 种 顺序 称 为 光栅 顺序 (raster order)。 图 像 行 与 行 之 间 人 允许 用 
换行 符 进行 分 隔 。 图 像 的 类 型 、 大 小 、 生成 时 间 和 创建 方法 等 信息 并 不 是 原始 图 像 的 一 部 分 。 
这 些 信息 可 以 手写 在 磁带 的 标签 上 或 者 研究 记录 本 上 ， 这 是 不 妥当 的 。 (在 作者 参加 的 一 个 项 
目 中 ,录像 前 先 录 下 和 条形码。 计算 机 程序 随后 处 理 该 条 形 码 ， 就 得 到 实验 处 理 的 全 部 非 图 像 
信息 。) 最 近 开 发 的 标准 图 像 格式 包含 着 一 个 文件 头 ， 文件 头 中 记录 着 标记 数据 和 解码 所 必需 
的 非 图 像 信 息 。 

有 的 图 像 格式 最 初 是 由 公司 规定 的 ， 这 些 公 司 主要 进行 图 像 处 理 和 图 形 工具 的 开发 工作 。 
有 时 能 得 到 公开 文档 和 转换 软件 ， 但 多 数 情况 下 得 不 到 。 下 面 的 内 容 是 实用 资料 ， 可 以 帮助 
读者 从 事 于 计算 机 图 像 处 理 。 虽然 细节 内 容 随 着 技术 的 进步 变化 很 快 ， 但 本 节 介 绍 的 基本 概 
念 则 不 会 变 。 








应 用 
(网 络 搜索 ) 


图 2-10 建立 、 使 用 或 转换 图 像 数据 的 设备 或 应 用 程序 有 很 多 ， 标 准 格式 的 
图 像 文件 (IF) 可 以 方便 地 用 于 不 同 的 设备 和 程序 
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2.5.1 图 像 文件 头 

文件 头 (file header) 是 图 像 的 自我 说 明 ， 通 过 文件 头 图 像 处 理工 具 能 同 它 们 一 道 工 作 。 
文件 头 应 该 包含 图 像 的 维 数 、 类 型 、 创 建 日 期 和 某 类 标题 。 它 也 可 以 包含 用 于 解释 像素 值 的 
颜色 表 或 编码 表 。 人 很 不 错 的 特征 是 历史 段 (history section )， 其 中 包含 如 何 建立 和 处 理 图 像 的 
信息 ， 但 这 个 特征 不 容易 得 到 。 
2.5.2 KREE 

有 的 图 像 格 式 只 能 处 理 有 限 类 型 的 图 像 ， 如 二 值 图 像 和 灰 度 图 像 。 至 今 仍 幸 存 的 格式 通 
过 不 断 发 展 ， 能 够 包括 更 多 的 图 像 类 型 和 特征 。 文 件 格式 不 同 ， 对 像素 大 小 与 图 像 大 小 的 限 
制 一 般 也 不 同 。 有 的 格式 可 处 理 帧 序列 。 多 媒体 (multimedia) 格式 正在 发 展 ， 并 同时 包括 图 
像 数 据 、 文 本 、 图 形 和 音乐 等 。 
2.5.3 数据 压缩 

许多 格式 提供 了 对 图 像 数 据 的 压缩 (compression ) ， 不 是 对 所 有 像素 值 直接 进行 编码 。 图 
像 压 缩 能 使 图 像 数 据 减 少 到 原来 的 30% 甚 至 3% ， 这 取决 于 需要 的 图 像 质 量 和 所 用 的 压缩 方法 。 
压缩 可 以 是 无 损 (lossless) 的 或 有 损 (lossy) 的 。 使 用 无 损 压缩 ， 能 完全 恢复 出 原始 图 像 ; 
使 用 有 损 压 缩 ， 不 能 完全 恢复 出 原始 图 像 ， 有 时 能 观察 出 图 像 质 量 有 损失 ， 但 并 不 是 总 能 观 
察 到 。 为 了 实现 压缩 ， 图 像 文件 必须 包括 一 些 关 于 压缩 方法 和 参数 的 抬头 信息 。 许 多 数字 图 
像 和 符号 数字 信息 不 同 ， 丢 失 或 改变 几 位 数字 图 像 数据 ， 不 管 是 对 于 人 还 是 对 于 机 器 ， 关 系 
都 不 是 很 大 。 这 种 情况 与 其 他 计算 机 文件 不 同 ， 如 在 员工 档案 中 更 改 一 个 字 位 就 有 可 能 改变 
薪水 字段 达 8 192 美 元 ， 或 者 会 把 公寓 地 址 从 A 变 成 B。 图 像 压 缩 是 个 振奋 人 心 的 研究 领域 ， 涉 
及 范围 从 信号 处 理 到 目标 识别 。 在 本 书 的 几 个 地 方 会 讨论 到 图 像 压缩 ， 但 不 做 系统 性 的 讨论 。 


定义 13 ”如 果 解 压缩 的 方法 能 够 精确 地 恢复 原始 图 像 表示 的 每 一 位 ， 则 所 用 的 图 像 
压缩 方法 是 无 损 的 ， 否 则 该 压 缩 方法 是 有 损 的 。 


2.5.4 常用 图 像 格 式 

本 书 的 许多 图 像 都 具有 多 种 格式 。 有 些 图 像 由 同事 提供 ， 或 取 自 图 像 数据 库 ， 格 式 包括 
GIF, JPG. PS; 有 的 图 片 是 通过 扫描 照片 得 到 的 ， 其 原始 图 像 格式 是 GIF 或 TIFF。 用 图 像 工 
有 具 xv 做 了 简单 的 图 像 处 理 ， 较 为 复杂 的 图 像 运算 则 用 hips 工 具 或 专门 的 C 或 C++ 程序 处 理 。 下 
面 简单 介绍 最 常用 的 图 像 格 式 。 图 像 / 图 形 文件 格式 还 在 发 展 之 中 , 趋势 是 具有 更 强 的 包容 性 。 
读者 要 明白 ， 下 面 讨论 的 内 容 也 在 发 展 之 中 ， 应 通过 参阅 最 新 的 文献 了 解 最 新 变化 。 
2.5.5 游程 编码 二 值 图 像 

对 于 二 值 图 像 或 标记 图 像 来 说 ， 游 程 编码 (run-coding) 是 一 种 有 效 的 编码 方法 。 它 不 仅 
能 够 减少 存储 空间 而 且 能 够 加 速 图 像 运算 ， 例 如 加 快 集合 运算 的 速度 。 当 图 像 的 行 像素 存在 
大 量 元 余 时 ,游程 编 码 就 非 党 有效。 对 于 二 值 图 像 的 每 一 行 ， 我 们 可 以 记录 下 0 的 数目 ， 接 着 
是 1 的 数目 ， 如 此 交替 下 去 直到 完成 全 行 。 图 2-11 中 的 游程 码 A 就 是 这 种 编码 的 例子 。 图 中 的 
游程 码 B 是 更 紧 竣 的 只 有 1- 游 程 的 编码 方式 ， 据 此 我 们 仍 能 恢复 初始 的 行 。 本 书 中 的 一 些 算法 
就 采用 这 种 编码 方式 。 游 程 编码 常常 是 标准 文件 格式 中 的 压缩 方法 。 
2.5.6 PGM 格 式 

存储 和 交换 图 像 数 据 的 简单 文件 格式 之 一 是 可 转移 式 点 阵 图 系列 (PBM/PGM、PPM)。 图 
像 尖 和 像素 信息 以 ASCII 方 式 编码 。 图 2-12 所 示 的 图 像 文件 ， 表 示 8 x 16、 最 大 灰 度 值 为 192 的 图 
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像 。 下 部 是 绘制 出 的 两 幅 图 ， 每 个 都 是 对 原始 文本 进行 转换 后 输出 的 图 像 。 左 下 方 的 图 像 通过 
复制 像素 的 方式 得 到 较 大 的 32 x 64 图 像 ， 右 下 方 图 像 则 先 使 用 有 损 压 缩 转换 成 JPEG 格 式 。PGM 
文件 的 第 一 项 是 魔 值 (Magic Value)， 即 本 例 中 的 “P2”， 指 明 图 像 信息 如 何 编 码 的 (本 例 中 的 
ASCII 灰 度 级 )。 大 型 图 片 可 以 利用 二 值 而 不 是 ASCII 像 素 编码 。( 二 值 码 的 魔 值 是 “P4” )。 


0000000000111111111122222222223333333333444444444 
Column c : 0123456789012345678901234567890123456789012345678 


Image Row r : 0000000011111000000000000111000000011111111100000 
Run-code A : 8(0)5(1)12(0)3(1)7(0)9(1)5(0) 


Run-code B : (8,12) (25,27) (35,43) 


图 2-11 游程 编码 对 连续 0 值 或 1 值 的 运行 长 度 进行 编码 ， 
在 一 定 范 围 内 生成 有 效 的 压缩 图 像 





P2 
# sample small picture 8 rows of 16 columns, max gray value of 192 
# making an image of the word "Hi". 

16 8 192 


64 64 64 64 64 
128 128 64 64 64 
128 128 64 64 64 


128 128 128 128 128 
128 128 128 128 128 
128 128 64 64 64 
128 128 64 64 64 
64 64 64 64 64 





图 2-12 表示 图 像 中 单词 “Hi” 的 文本 (ASCI) 文件 。 背 景 的 灰 度 级 是 64， 
“P” AR “i 的 下 半 部 灰 度 级 是 128,“i” 的 圆 点 的 灰 度 级 是 192。 
左下 方 是 一 幅 打印 图 画 ， 使 用 图 像 格式 转换 工具 对 上 述 文本 文件 转 
换 后 得 到 。 右 下 方 是 使 用 有 损 压 缩 算法 后 得 到 的 图 像 
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类 似 图 2-12 所 示 的 “P2” 单 色 编码 文件 ， 利 用 魔 值 “P3” 和 每 个 像素 的 三 个 强度 值 
(R,G, B)， 彩 色 图 像 可 以 编码 成 PBM 格 式 。 用 编辑 器 创建 一 个 文件 bullseye ppm， 对 不 同 颜色 
的 三 个 同心 圆 区 域 进行 编码 。 对 于 每 个 像素 ， 三 个 颜色 值 前 后 紧 挨 着 ， 而 不 是 像 在 其 他 格式 
中 分 别 对 三 幅 单 色 图 像 进行 编码 。 应 用 图 像 工 具 或 网 络 浏览 器 显示 你 的 图 片 。 

2.5.7 GIF 格式 


图 形 交换 格式 (GIF) 由 CompuServe 公 司 开 发 并 用 来 对 万 维 网 上 或 当前 数据 库 中 的 海量 
图 像 进行 编码 。 使 用 GIF 文 件 格式 相对 容易 ， 但 不 能 应 用 于 高 精度 色彩 ， 因 为 只 用 了 8 位 二 进 
制 数 对 颜色 编码 。256 个 颜色 值 对 于 计算 机 显示 图 像 来 说 绰绰有余 ， 也 可 以 使 用 更 节省 空间 的 
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16 色 编码 。 可 以 采用 Lempel-Ziv-Welch (LZW) 无 损 压 缩 方法 。 
2.5.8 TIFF 格 式 

由 Aldus 公 司 开发 的 TIFF 或 TIF 格 式 是 非常 通用 和 复杂 的 ， 它 用 于 所 有 流行 的 平台 ， 常 常 
是 扫描 仪 使 用 的 格式 。 标 记 图 像 文件 格式 (Tag Image File Format) 支持 多 种 图 像 ， 图 像 的 每 
个 像素 的 颜色 编码 可 以 是 1 到 24 位 的 二 进 制 数 。 可 以 用 有 损 或 者 无 损 压 缩 方法 。 
2.5.9 JPEG 格 式 

JPEG (JFIF/JFI/JPG) 是 更 近期 的 标准 ， 来 自 联合 摄影 专家 组 (Joint Photographic 
Experts Group)， 其 主要 目的 是 提供 高 质量 彩色 静止 图 像 的 实用 压缩 。JPEG 是 面向 数据 流 的 
编码 方法 ,而且 允 许 对 实时 硬件 进行 编码 和 解码 。 尽 管 每 个 文件 只 有 一 幅 图 像 ， 而 图 像 大 小 

可 达 64K x 64K 像 素 ， 每 个 像素 可 用 24 位 二 进 制 数 表示 。 文 件 头 能 包含 一 幅 相当 于 64K 未 压缩 

字 节 的 缩 略 图 。JPEG 的 一 个 主要 优点 是 独立 于 颜色 编码 系统 。 颜 色 系统 的 详细 内 容 在 第 6 章 
中 给 出 。 为 了 实现 高 比例 压缩 ， 采 用 灵活 但 复杂 的 有 损 编码 方案 ， 常 常 能 以 20:1 压 缩 一 幅 高 
质量 图 像 而 没有 明显 的 图 像 失 真 。 当 图 像 存 在 大 片 颜色 不 变 的 区 域 ， 以 及 细节 区 域 中 的 高 频 
变化 对 用 户 不 重要 时 ,采用 这 种 方法 进行 压缩 的 效果 就 很 好 。(JPEG 有 一 个 很 少 用 的 无 损 压 
缩 选 项 ， 可 通过 使 用 预测 编码 实现 2:1 压 缩 。 ) 压缩 方法 采用 离散 余弦 变换 (discrete cosine 
transformation), ， 随 后 是 赫 夫 曼 编 码 (Huffman coding )。 离 散 余弦 变换 将 在 第 5 章 中 讨论 ， 赫 
夫 曼 编码 在 本 书 不 讨论 。JPEG 不 是 为 视频 压缩 设计 的 。 





在 计算 机 系统 上 找到 一 个 图 像 浏览 工具 。( 可 能 只 要 点 击 图 像 文件 图 标 就 可 做 到 。) 用 一 
幅 人 脸 图 像 和 一 幅 风 景 画 。 原 始 图 像 应 是 高 质量 的 ， 如 800 x 600 彩 色 像 素 ， 来 自 平台 扫描 仪 
或 数码 摄像 机 。 把 图 像 变 换 成 不 同 的 格式 如 GIF、TIFF、JPEG 等 。 记 录 已 编码 的 图 像 文件 的 
字 节 数 ， 并 注意 观察 图 像 的 质量 ， 同 时 考虑 图 像 全 部 和 图 像 细 节 。 
| ; i ee 
(a) 研究 对 8 x 8 图 像 块 的 JPEG 压 缩 方案 。(b) 以 无 损 压 缩 方 式 (除了 可 能 的 伟人 误差 外 ) 
实现 和 测试 DCT 压 缩 方法 。(c) 利用 现成 的 图 像 工具 进行 有 损 压缩 。(d) 利用 来 自 有 损 压 缩 
的 64 个 系数 ， 重 新 产生 一 幅 8 x 8 的 图 像 ， 并 与 原始 的 8 x 8 图 像 进行 像素 值 比较 。 
2.5.10 PostScript 格式 ` 
BDF/PDL/EPS 格 式 系列 利用 可 打印 的 ASCII 字 符 存储 图 像 数 据 ， 并 经 常 同 X11 图 形 显示 器 
和 打印 机 一 起 使 用 。PDL 是 一 种 页 面 描述 语言 ， 而 EPS 是 封装 的 postscript ( 源 于 Adobe) 格式 ， 
这 种 文件 格式 常常 用 于 插入 到 较 大 文档 中 的 图 形 或 图 像 。 像 素 值 用 7 位 ASCII 码 进行 编码 ， 因 
此 这 些 文件 能 用 文本 编辑 器 检查 和 更 改 。 可 以 做 到 每 英寸 75 到 3000 点 的 灰 度 级 或 颜色 ， 较 新 
的 版 本 包括 了 JPEG 压 缩 技 术 。PDL 文 件 头 包含 了 图 像 所 在 页 面 的 图 像 边框 。 本 书 中 的 大 多 数 
图 像 都 是 EPS 格 式 。 
2.5.11 MPEG 格 式 
MPEG (MPG/MPEG-1/MPEG-2) 是 用 于 视频 、 音 频 、 文 本 和 图 形 的 面向 流 的 编码 方式 。 
MPEG 代 表 运 动 图 像 专家 组 (Motion Picture Experts Group )， 是 成 员 来 自 工 业界 和 政府 的 国 
际 小 组 。 当 前 MPEG 系 列 的 标准 正 随 计算 机 和 通讯 技术 快速 发 展 。MPEG-1 主 要 是 针对 多 媒体 
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系统 设计 的 ， 它 提供 0.25Mbits/s 的 压缩 音频 数据 率 ， 以 及 1.25Mbits/s 的 压缩 视频 数据 率 。 这 
些 速 率 适合 于 处 理 个 人 计算 机 的 多 媒体 信息 ， 但 对 于 高 质量 电视 来 说 太 慢 了 。MPEG-2 标 准 能 
提供 15Mbits/s 的 数据 率 来 适应 高 清晰 度 电视 。 MPEG 压 缩 方 案 利用 了 与 JPEG 中 一 样 的 空间 宛 
余 ， 同 时 也 利用 了 时 间 宛 余 。 实 用 的 压缩 比 一 般 是 25:1， 甚 至 可 能 达到 200:1。 时 间 宛 余 
(temporal redundancy) 本 质 上 意味 着 从 一 帧 到 下 一 帧 期 间 图 像 上 的 许多 区 域 变 化 不 大 ， 而 编 
码 方案 可 以 只 对 变化 部 分 进行 编码 ， 甚 至 可 以 根据 视频 序列 中 的 前 后 帧 进行 帧 的 预测 o 
(MPEG 的 未 来 版 本 将 具有 识别 物体 的 代码 和 生成 目标 图 像 的 程序 代码 。 ) 媒体 质量 在 编码 时 
刻 就 确定 了 。 运 动 JPEG 是 一 种 混合 编码 方案 ， 它 对 视频 单 帧 用 JPEG 压 缩 技 术 ， 而 不 利用 时 间 
元 余 。 运 动 JPEG 简 化 了 编码 和 解码 过 程 ， 但 压缩 效果 不 是 很 好 ， 所 以 存储 和 传输 时 的 效果 比 
不 上 MPEG。 第 9 章 中 介绍 MPEG 运 动向 量 用 于 视频 压缩 。 
2.5.12 图 像 格式 比较 

表 2-1 根 据 存储 量 的 大 小 对 一 些 常用 的 图 像 格 式 做 比较 。 其 中 左边 一 列 用 的 是 8 x 16 的 小 
型 灰 度 图 片 “Hi”， 而 右边 一 列 用 的 是 347 x 489 的 彩色 图 像 。 对 于 同一 幅 图 像 ， 用 不 同 的 格式 
转换 顺序 ， 可 能 产生 大 小 不 同 的 图 像 。 例 如 从 扫描 仪 输出 的 “Cars”TIF 文 件 是 509 253 个 字 
节 ， 转 换 成 256 色 的 GIF 文 件 则 需要 138 267 个 字 节 ， 再 转换 成 TIF 文 件 需 要 171 430 个 字 节 。 最 
后 的 TIF 文 件 中 的 彩色 代码 具有 较 少 字 位 ， 但 是 在 阴极 射线 管 (CRT) 上 看 起 来 部 差不多 。 大 
小 只 占 三 分 之 一 的 JPEG 文 件 显示 效果 也 一 样 。 从 空间 的 角度 来 说 ， 有 损 JPEG 显 然 是 最 佳 压缩 
方法 ， 但 代价 是 增加 了 解码 的 复杂 性 ， 为 了 满足 实时 性 需要 用 硬件 来 实现 。 


表 2-1 同一 图 像 不 同 编码 格式 下 的 文件 大 小 (以 字 节 为 单位 )。 图 2-12 所 示 的 是 8 x 16 灰 度 
“Hi” 图 像 和 图 2-13 所 示 的 是 347 x 489 彩 色 “Cars” 图 像 


图 像 文件 格式 “Hi” 的 字 节 数 “Cars” 的 字 节 数 
PGM 595 509 123 
GIF 192 138 267 
TIF 918 171 430 
PS 1 591 345 387 
HIPS 700 160 783 
JPG (无 损 ) 684 49 160 


JPG (有 损 ) 619 29 500 


2.6 成 像 影响 因素 

睁 开 双 眼 ， 敞 开心 灵 ， 到 室外 去 散步 ， 我 们 会 发 现 自然 景观 是 多 么 丰富 ， 这 是 艺术 家 们 早 
就 明白 的 一 点 。 室 外 丰富 的 景观 增加 了 我 们 的 见识 , 却 给 机 器 视觉 带 来 了 问题 。( 参 见 图 2-13。) 
图 像 点 的 亮度 或 颜色 以 复杂 的 方式 受到 材料 、 几 何 位 置 和 光照 的 影响 。 不 仅 材料 类 型 是 重要 
的 ， 而 且 目标 与 传感器 、 光 源 、 其 他 目标 之 间 的 相对 方向 也 是 重要 的 影响 因素 。 例 如 ， 存 在 
镜面 反射 、 阴 影 、 互 反射 等 现象 ， 材 料 也 可 能 是 透明 的 。 在 识别 表面 或 者 识别 目标 时 ， 与 依 
赖 多 个 像素 而 不 只 是 一 个 像素 的 形状 特征 或 纹理 特征 相 比 ， 颜 色 特 征 相对 不 太 重要 。 对 于 我 
们 几乎 不 能 控制 的 环境 如 交通 监控 ， 令 人 感 兴趣 但 实现 起 来 却 很 困难 。 

即使 是 精心 设计 的 工业 环境 或 电视 播放 室 ， 问 题 仍然 存在 。 在 第 6 章 我 们 会 看 到 ， 点 光源 
照射 金属 圆 简 ， 圆 简 表 面 的 反射 光 强 度 可 在 100 000 到 1 的 范围 内 变化 ， 而 多 数 传感器 不 能 ; 
应 这 样 大 的 动态 范围 。 太 阳光 或 者 人 造 光 会 加 热 表 面 ， 使 它们 随时 间 而 产生 不 同 的 辐射 ， 红 
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外 线 的 增加 会 使 CCD 图 像 变 亮 ， 飞 机 起 飞 后 会 在 跑道 上 留 下 影子 。 受 控 的 单 色 激 光 能 够 对 成 
像 过 程 起 帮助 作用 ， 但 是 它 也 可 能 被 某 些 表面 完全 吸收 ， 或 者 被 其 他 表面 的 二 次 反射 所 支配 。 





图 2-13 人 类 能 感知 的 多 种 深度 线索 的 复杂 场景 


在 许多 自动 化 应 用 中 ， 可 通过 工程 途径 解决 问题 。 把 不 相关 的 光线 滤 掉 。 举 个 例子 ， 如 
果 使 用 只 允许 红外 光线 通过 的 滤波 器 ， 那 么 深 红色 樱桃 上 的 擦 伤 就 能 更 清楚 地 看 到 。 在 稳定 
的 照明 下 运动 目标 会 导致 图 像 模糊 利用 闪光 灯 (strobe light) 进行 短 时 间 照明 ， 用 高 灵敏 度 
[41] 探测 器 拍摄 图 像 ， 其 中 的 目标 物 就 相当 于 是 静止 的 。 结 构 光 (structured light) 的 使 用 使 表面 
测量 和 检查 变 得 容易 。 例 如 用 红 和 绿 交替 的 精细 条 纹 光 对 涡轮 机 叶片 进行 照明 ， 表 面 有 缺陷 
的 地 方 在 二 维 图 像 上 就 表现 为 明显 的 光线 间断 。 在 本 书 的 某 些 地方 会 提 到 这 些 方法 。 


2.7 ”从 二 维 图 像 到 三 维 结构 

人 类 视觉 系统 综合 不 同 的 线索 特征 对 三 维 世界 的 结构 进行 感知 。 我 们 在 此 仅仅 做 出 定性 
说 明 。 认 知心 理学 家 J.J. Gibson 对 这 些 线索 给 出 了 定量 模型 。80 年 代 ， 计 算 机 视觉 研究 者 以 极 
大 的 精力 投身 于 对 这 些 模型 的 实现 和 实验 上 。 书 中 在 几 处 对 一 些 定量 模型 进行 讨论 。 

成 像 过 程 记 录 了 三 维 世界 结构 和 二 维 图 像 结构 之 间 的 复杂 关系 。 透 视 投 影 的 模型 见 图 2-2， 
并 参考 图 2-13。 穿 插 (interposition) 也 许 是 最 重要 的 深度 线索 。 近 处 的 目标 部 分 遮挡 远 处 的 
目标 ， 识 别 遮挡 能 得 到 相对 深度 。 看 起 来 位 于 墙 内 测 的 人 显然 比 墙 更 靠近 传感器 ， 位 于 汽车 
后 面 的 人 离 得 要 比 这 辆 车 更 远 。 相 对 尺寸 也 是 重要 的 线索 。20m 远 的 汽车 图 像 比 10m 远 的 汽车 
图 像 要 小 得 多 ， 即 使 远 处 的 汽车 体型 较 大 也 是 这 样 。 远 处 的 汽车 对 于 我 们 不 仅 显 得 小 而 且 动 
作 缓 慢 。 经 验 已 经 教会 我 们 如 何 把 大 小 和 速度 与 距离 联系 起 来 。 当 我 们 沿 铁轨 漫步 时 ， 两 条 
铁轨 在 远 处 似乎 相交 于 一 点 ( 消 隐 点 ，vanishing point)， 尽 管 我 们 知道 在 三 维 空间 中 它们 一 
定 是 平行 的 。 一 扁 朝 里 开 的 门 在 我 们 的 视网膜 上 成 像 为 梯形 ， 而 不 是 我 们 知道 的 矩形 。 门 上 
离 得 远 的 那 条 边 显得 比 离 得 近 的 那 条 边 要 短 ， 这 是 透视 投影 中 的 缩短 (foreshortening ) 效应 ， 
并 且 传 递 门 的 三 维 朝 向 信息 。 一 个 相关 的 线索 特征 是 纹理 梯度 。 表 面 纹 理 随 观 察 距离 和 表面 
方向 而 变化 。 在 公园 里 ， 竣 近 可 以 看 到 一 片 草 叶 或 者 枫叶 ， 离 得 远 时 就 只 能 看 到 绿色 了 。 后 
退 时 观察 表面 , 视图 中 的 纹理 发 生变 化 , 这 种 图 像 纹理 的 变化 称 为 纹理 梯度 (texture gradient), 
在 第 12 章 中 将 对 提 到 的 问题 进行 更 多 的 讨论 。 
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有 意识 地 在 两 种 不 同 的 环境 中 观察 ， 并 且 和 叙述 上 面 讨论 过 的 线索 特征 。 比 如 在 繁忙 的 咖 
啡 馆 ， 从 几 层 楼 的 高 处 观察 城市 街道 的 一 角 ， 或 者 在 树林 中 的 某 个 地 方 。 


2.8 5 种 参考 坐标 系 

对 三 维 场景 定性 或 定量 分 析 都 离 不 开 参 考 坐 标 系 (reference frame )。 三 维 场景 分 析 中 一 
般 要 用 到 5 种 坐标 系 ， 三 维 场景 如 用 机 器 人 和 传感器 控制 工作 间 中 的 操作 ， 或 者 为 人 机 交互 提 
供 一 个 虚拟 的 三 维 环境 。 这 些 坐 标 系 不 仅 对 机 器 人 学 很 重要 ， 而 且 对 心理 学 家 以 及 理解 人 类 
空间 感知 也 很 重要 。 这 5 种 坐标 系 的 图 示 参 见 图 2-14。 实 际 上 图 中 有 6 个 坐标 系 ， 因 为 在 场景 
中 有 两 个 不 同 的 物体 ， 一 个 方形 物 和 一 个 锥 形 物 ， 每 个 物体 都 有 自己 的 参考 坐标 系 。 在 所 有 
这 些 坐标 系 中 ， 除 了 图 像 坐标 是 像素 阵列 的 整数 下 标 外 ， 其 他 坐标 都 是 沿 连续 轴 的 实数 。 对 
于 这 个 例子 ， 你 可 以 想像 是 模拟 一 个 球场 情况 ， 其 中 摄像 机 是 电视 摄像 机 ， 在 拍摄 全 场 棒球 
比赛 ， 场 景 中 的 目标 是 球员 、 球 垒 、 球 和 球 棒 等 等 。 





图 2-14 三 维 场景 分 析 使 用 的 5 种 坐标 系 : 世界 坐标 系 W， 物 体 坐 标 系 O ( 锥 形 物 0, 或 方形 物 O,)， 
摄像 机 坐标 系 C， 实 际 图 像 坐 标 系 FEF 和 像素 图 像 坐标 系 I 


2.8.1 像素 坐标 系 | 

像素 阵列 中 的 每 个 点 都 具有 整数 的 像素 坐标 。 图 2-14 中 ， 锥 顶 A 对 应 的 像 点 是 像素 a = la, 
ad, 其 中 a, 和 a 分 别 是 行 数 和 列 数 ， 都 是 整数 。 场 景 中 的 许多 事物 只 通过 分 析 行 和 列 像素 图 像 
就 能 确定 。 例 如 搬运 机 器 人 或 其 他 搬运 机 械 ， 总 是 搬运 大 概 位 于 摄像 头 前 面 的 箱子 (或 一 箱 
洗涤 剂 )， 只 利用 行 和 列 像素 构成 的 阵列 图 像 就 可 以 检测 到 前 表面 上 的 标记 。 在 模拟 棒球 比赛 
中 ， 只 用 图 像 就 能 确定 击 打手 是 否 在 用 一 根 黑色 球 棒 。 不 过 如 果 只 用 图 像 I 而 没有 任何 其 他 信 
息 ， 就 不 能 确定 在 三 维 空间 中 哪个 目标 实际 上 更 大 一 些 ， 或 者 是 否 有 目标 发 生 碰撞 。 
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2.8.2 物体 坐标 系 O 

在 计算 机 图 形 学 和 计算 机 视觉 中 ， 理 想 的 物体 建 模 都 是 用 物体 坐标 系 表示 的 。 图 2-14 中 
显示 了 两 个 物体 坐标 系 ， 一 个 表示 方形 物 O。， 一 个 表示 锥 形 物 O,。 三 维 角 点 B 相 对 物体 坐标 
系 的 坐标 是 Po, 0, zs]。 不 管 这 个 方形 物 相 对 世界 或 工作 区 坐标 系 W 的 姿态 如 何 变 化 ， 这 些 坐 标 
依然 不 变 。 检 查 目 标 时 要 用 到 物体 坐标 系 ， 例 如 检查 一 个 特殊 的 孔 是 否 与 其 他 孔 或 角 有 合适 
的 相对 位 置 。 

2.8.3 摄像 机 坐标 系 C 

当 以 观察 者 (摄像 机 ) 为 中 心 时 ， 常 常 要 用 到 摄像 机 坐标 系 C。 例 如 观察 一 个 目标 是 否 刚 
好 在 传感器 的 正 前 方 ， 是 否 正 在 离开 等 。 如 果 一 个 球 的 图 像 在 你 的 视网膜 中 不 断 变 大 ， 则 球 
有 可 能 要 击 中 你 。 对 于 有 视觉 的 机 器 人 或 者 人 来 说 ， 既 是 目标 又 是 传感器 ， 因 此 物体 坐标 系 
和 传感器 坐标 系 几乎 相同 ， 但 不 是 严格 相同 。( 看 上 去 好 像 不 会 撞 到 门 ， 但 你 却 撞 到 了 ， 发 生 
过 这 种 事 吧 ? ) 计算 机 图 形 学 系统 允许 用 户 选 择 不 同 的 摄像 机 视点 观察 三 维 场景 。 例 如 把 摄 
像 机 对 崔 第 一 垒 比赛 ， 可 以 更 好 地 进行 观察 。) 

2.8.4 实际 图 像 坐标 系 F 

摄像 机 坐标 是 实数 ， 其 单位 常常 与 世界 坐标 系 相 同 ， 即 英寸 或 者 毫米 ， 包 括 深度 坐标 z. 在 
内 。 三 维 点 投影 到 位 于 Do vp 几 的 实际 图 像 平面 上 ， 基 中 人 是 焦距 ，xjflly/ 不 是 图 像 阵列 中 像素 
的 下 标 ， 而 与 像素 大 小 以 及 与 光 轴 像 点 的 相对 位 置 有 关 。 在 图 2-14 中 实际 图 像 中 的 点 a 在 坐标 
系 F 中 的 横 坐 标 和 纵 坐 标 都 是 负 的 。F 坐 标 系 包含 的 图 像 函 数 把 实际 图 像 数 字 化 ， 形 成 像素 阵 
列表 示 的 数字 图 像 。 

2.8.5 世界 坐标 系 W 

通过 坐标 系 W 来 建立 三 维 空间 中 的 物体 之 间 的 关系 。 例 如 确定 一 名 跑 垒 者 是 否 远 离 球 允 ， 
或 者 跑 垒 者 是 否 与 第 二 垒 的 球 手相 撞 。 在 机 器 人 工作 室 或 虚拟 环境 中 ， 执 行 器 和 传感器 常用 
世界 坐标 进行 通信 。 例 如 图 像 传感器 告诉 机 器 人 在 哪里 捡 起 一 根 螺栓 ， 并 把 它 插入 哪个 螺 孔 。 

这 些 坐 标 系 之 间 的 几何 关系 和 数学 关系 很 重要 ， 书 中 后 面 的 内 容 将 要 用 到 。 在 接 下 来 的 
儿 章 中 ,我 们 只 处 理 像素 阵列 图 像 ， 假 设 像素 阵列 图 像 与 真实 世界 存在 直接 对 应 。 对 透视 变 
换 的 代数 运算 及 缩放 效果 熟悉 的 读者 ， 可 以 直接 进入 第 12 章 学 习 透 视 成 像 模型 。 

2.9 其 他 类 型 的 传感器 * 

我 们 再 谈 几 种 传感器 。 读 者 第 一 次 阅读 本 书 时 可 以 跳 过 这 节 内 容 ， 除 非 某 种 传感器 对 你 
当前 的 研究 很 重要 。 传 感 器 技术 正在 迅速 发 展 ， 我 们 不 仅 希望 生产 出 新 的 传感器 ， 而 且 和 希望 
现 有 传感器 的 性 能 更 加 完善 。 

2.9.1 测 微 密度 计 

让 一 束 光线 穿 过 幻灯 片 或 胶片 ， 由 对 面 的 单 感光 元 传感器 记录 在 [r, c] 位 置 处 材料 的 光 密 
度 。 通 过 机 械 平台 精确 地 移动 幻灯 片 或 胶片 ， 直 到 扫描 完整 个 矩形 区 域 为 止 。 对 于 CCD 阵 列 
传感器 ， 由 于 各 感光 元 制造 上 的 差异 ， 会 对 光 密 度 有 所 影响 。 在 这 一 点 上 ， 单 感光 元 传感器 
要 优 于 CCD 阵 列 。 单 感光 元 传感器 的 另 一 个 优点 是 ， 能 够 扫描 到 更 多 的 行 和 列 ， 但 这 种 仪器 
速度 缓慢 ， 无 法 用 于 自动 化 场合 。 

读者 通过 了 解 下 面 的 扫描 技术 发 展 史 ,会 从 中 发 现 一 些 有 意思 的 地 方 。70 年 代 在 Azriel 
Rosenfeld 的 实验 室 中 ， 许 多 图 片 按 下 面 的 方式 输入 到 计算 机 中 : 把 黑白 图 片 贴 在 一 个 钢 简 上 。 
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一 般 一 次 扫描 9 x 9 英寸 的 图 片 或 拼 贴画 。 圆 简装 在 一 台 标 准 的 车 床上 ， 车 床 带动 图 片区 域 上 
的 所 有 点 旋转 ， 面 前 是 小 的 发 光 二 极 管 LED， 由 传感器 测量 从 每 个 点 反射 过 来 的 光线 。 圆 简 
每 转 一 圈 产 生 3600 个 行 像素 点 ， 这 些 像素 点 作为 一 个 数据 块 存储 在 磁带 上 。 磁带 的 记录 速度 
与 车 床 同步 ! 最 终 的 磁带 文件 有 3600 x 3600 个 像素 ， 通常 包含 着 许多 次 实验 的 数据 结果 ， 这 
些 数据 随后 通过 软件 进行 分 离 。 

2.9.2 彩色 图 像 和 多 谱 图 像 

人 有 眼 利用 不 同 的 感受 细胞 感知 不 同 波段 的 光线 ， 可 以 称 它 为 多 谱 (multispectral) 传感器 。 
有 的 彩色 CCD 摄 像 机 ， 在 CCD 阵 列 的 正 前 方 安装 有 折射 薄膜 。 折射 薄膜 把 单 束 白光 分 成 四 束 
光 ， 落 到 CCD 阵 列 的 四 个 相 邻 的 感光 元 上 。 由 此 产生 的 数字 图 像 可 以 看 成 是 四 幅 交错 的 彩色 
图 像 的 集合 ， 每 一 幅 都 对 应 着 经 折射 分 离 出 的 一 种 波长 。 光谱 信息 上 的 增益 以 空间 分 辩 率 上 
的 损失 为 代价 。 另 一 种 设计 是 ， 一 色 轮 在 光路 中 同步 旋转 ， 在 一 个 时 间 间 隔 内 只 让 红 光 通过 ， 
然后 是 蓝光 ， 随 后 是 绿 光 。( 色 轮 是 一 个 圆 盘 形 的 透明 薄膜 ， 每 种 颜色 所 占 的 扇 区 大 小 相等 。) 
色 轮 旋转 一 周期 间 ， 读 取 CCD 阵 列 三 次 ， 可 获取 三 幅 分 离 的 图 像 。 这 一 设计 中 ， 感 光速 度 以 
颜色 灵敏 度 下 降 为 代价 。 如 果 物 体 是 快速 运动 的 ， 那么 在 获取 三 幅 分 离 的 图 像 期 间 ， 物 体 上 
的 一 点 实际 上 成 像 到 图 像 平 面 的 不 同 像素 位 置 上 。 

有 的 卫星 利用 瞄准 感知 (sensing through a straw or boresight) 技术 。 通 过 视 轴 
(boresight) 观察 地 球 上 的 一 点 ， 以 便 在 同一 时 刻 收 集 从 该 点 发 出 的 辐射 光 ， 而 其 他 位 置 的 辐 
射 光 则 被 屏蔽 。 参 见 图 2-15。 辐 射 光 束 通过 棱镜 ， 被 分 离 成 不 同 的 波长 ， 落 到 CCD 线 性 阵列 
Es CCD 线 性 阵列 同时 对 几 个 波段 光 的 强度 进行 采样 和 数字 化 。 (波长 较 短 的 光 穿 过 棱镜 比 波 
长 较 长 的 光 弯 曲 得 更 多 。) 图 2-15 显 示 ， 五 个 不 同 波段 的 光谱 产生 一 个 像素 ， 该 像素 是 含有 五 
个 强度 值 [bp1, ba, by bs, bs] 的 向 量 像素 。 通过 移动 视 轴 或 者 使 用 一 个 扫描 镜 ， 得 到 给 定 行 的 所 
有 列 ， 这 样 就 产生 一 幅 2D 图 像 。 卫 星 
在 围绕 地 球 的 轨道 上 运动 ， 产 生 图 像 
的 不 同行 。 正 如 你 想到 的 ， 得 到 的 图 
像 会 由 于 运动 的 存在 而 发 生 畸 变 ， 所 
有 扫描 点 的 集合 形成 地 球 上 的 一 个 梯 
形 区 域 , 利用 11 章 中 的 变形 方法 可 以 i 
把 矩形 (rectangular) 数字 图 像 变 换 成 多 谱 卫星 扫描 仪 
SHER. BREW, HET 图 2-15 卫星 上 的 视 轴 多 谱 扫 描 仪 。 来 自 单个 面 元 的 


强度 谱 (spectrum of intensity values) i 
辐射 光 ， 根 据 波长 被 折射 成 不 同 的 成 分 
而 不 是 一 个 强度 值 ， 这 样 就 可 以 把 地 9 


面 类 型 分 为 水 、 森 林 或 沥青 路 等 。 
2.9.3 X 射 线 

X 射 线 设 备 产生 X 射 线 穿 透 某 种 材料 ， 经 常 是 透视 人 体 组 织 ， 有 时 也 可 能 是 透视 焊接 好 的 
管道 和 苹果 痪 瓶子 。 在 发 射 器 的 对 面 ， 传 感 器 记载 图 像 点 上 的 能 量 ， 其 工作 方式 与 测 微 密 度 
计 相 同 。 如 果 图 像 点 上 记载 的 能 量 较 低 ， 表明 沿 发 射 器 发 射线 方向 上 的 物质 密度 较 大 。 很 容 
易 想 像 到 ， 一 张 2DX 射 线 胶片 被 穿 过 人 体 的 X 射 线 曝光 。 三 维 感知 可 以 通过 CT 扫描 仪 (CAT) 
实现 ， 投 影 X 射 线 沿 着 不 同 的 方向 穿 过 人 体 ， 得 到 不 同位 置 的 密度 数据 ， 然 后 在 数学 上 构造 出 
3D 密 度 立体 。 图 2-16 中 的 右 图 是 计算 机 绘制 的 2D 图 像 ， 在 这 之 前 先 用 CT 扫描 一 只 狗 得 到 3D 
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高 密度 体 素 。 可 以 看 出 ， 对 这 些 体 素 的 绘制 效果 ， 就 好 像 是 从 特定 视点 看 到 的 不 透明 反光 表 
面 。 诊 断 专 家 能 够 从 任何 视点 检查 被 测 骨 头 的 结构 。 





图 2-16 
左 图 是 对 人 头 MRA 切 片上 的 最 亮 像 素 进行 投影 形成 的 最 大 强度 投影 (MIP) (由 MSU 放 射 科 提供 ) 
右 图 是 计算 机 生成 的 图 像 ， 被 光照 射 的 表面 显示 出 CT 扫描 的 高 密度 体 素 (数据 由 Theresa Bernardo 提 供 ) 


想 想 自己 牙齿 的 X 光 片 ， 亮 区 和 上 暗 区 各 表示 什么 部 位 ?是 正常 牙齿 还 是 蛙 洞 ? 为 什么 ? 
2.9.4 磁 共 振 成 像 

磁 共 振 成 像 (MRI) 能 够 产生 组 织 (通常 是 人 体 组 织 ) 的 三 维 图 像 。 生 成 的 数据 是 三 维 
阵列 I[s, r, c]， 其 中 s 表 示 身 体 的 切片 ，r 和 ec 与 前 面 一 样 。 每 个 小 的 体积 元 素 即 体 素 (voxel) 
代表 直径 大 约 2mm 的 样本 ， 该 处 的 强度 与 组 织 的 化 学 性 能 有 关 。 磁 共振 血管 造影 术 (MRA) 
产生 的 强度 与 体 素 上 组 织 ( 血 流 ) 的 速度 有 关 。 这 样 的 扫描 仪 价值 上 百 万 美元 ， 扫 描 一 次 要 
花费 一 千 美 元 ,但 是 诊断 效果 非常 好 。MRI 扫 描 能 够 检查 水 果 和 蔬菜 的 内 部 人 缺陷， 将 来 设备 
便宜 的 话 可 以 用 来 做 这 个 事情 。 图 2-16 中 的 左 图 是 从 三 维 MRA 数 据 中 抽取 的 数字 图 像 。 通 过 
选择 所 有 切片 :中 的 最 亮 体 素 I[s, r, c]， 生 成 最 大 强度 投影 (maximum intensity projection) 
即 MIP[r, c]。 在 任何 观测 方向 作 投 影 ， 计 算 机 算法 都 能 生成 MIP 图 像 。 一 般 作 出 诊断 需要 满 
满 一 墙 这 种 打印 的 二 维 图 像 ， 但 是 现在 有 了 真正 的 三 维 显 示 仪 ， 放 射线 学 者 正在 学 习 使 用 它 
们 。 
2.9.5 距离 扫描 仪 和 深度 图 像 

有 的 设备 可 以 感知 到 三 维 面 元 的 深度 或 者 距离 ， 而 不 仅仅 是 辐射 强度 。 在 深度 图 像 中 ， 
能 直接 得 出 物体 表面 的 各 种 形状 ; 而 在 强度 图 像 中 ， 只 能 通过 麻烦 而 又 易于 出 错 的 分 析 才 能 
推出 表面 的 形状 。 图 2-17 是 LIDAR 装 置 ， 发 射 一 束 调幅 的 激光 到 三 维 表 面 上 的 一 点 ， 并 且 接 
收 反 射 回来 的 信号 。 通 过 比较 发 送 和 接收 信号 的 相位 变化 (延迟 )，LIDAR 能 够 根据 激光 束 的 
调制 周期 测 出 距离 。 由 于 歧义 性 ， 这 个 办 法 只 对 一 个 周期 的 距离 有 效 ， 距 离 为 4 + nNW2 的 点 产 
生 的 响应 与 距离 为 4 的 点 一 样 ， 其 中 4 是 调制 周期 。 此 外 ， 通 过 比较 接收 的 强度 和 发 送 的 强度 ， 
LIDAR 也 能 估算 出 该 表面 点 对 这 个 波长 激光 的 反射 率 。 因 此 ，LIDAR 产 生 两 幅 配 准 了 的 图 像 : 
深度 图 像 和 强度 图 像 。 由 于 需要 间 欢 时 间 (dwell time) 来 计算 每 点 的 相位 变化 ，LIDAR 要 比 
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CCDE. HAP ae EOLA HS BOER. LIDAR EF. ITRE PLE AAA 
系 天 体 探 索 机 器 人 来 说 ， 这 个 花费 是 合理 的 。 


光 检 而 与 测 距 (LIDAR) 


距离 z=f《〈《 相 位 变化 ) 
强度 = g (振幅 变化 ) 6p 表 而 





向 可 变 


”图 2.17 LIDAR 传 感 器 能 够 产生 兼 有 距离 和 强度 的 像素 
已 有 5000 年 历史 的 三 角 测 量 方法 ， 稍 加 变形 可 用 来 测量 三 维 表面 ， 如 图 2-18 所 示 ， 光 平 
面 照射 物体 表面 ， 表 面 产 生 的 反射 光线 进入 摄像 机 镜头 。 图 像 上 的 亮点 [x., y] 与 物体 上 的 3D 
点 De ,yw s zw] 对应。 





Fe 一 维 传感器 (Gey) 


平面 方程 
ary + byw + czw = 激光 光 带 






成 像 光 线 产 
生 两 个 线性 
方程 ， 含 三 
个 未 知 数 
(xs Yur Zw) 


图 2-18 条 纹 光 传感器 通过 三 角 测 量 产生 三 维 点 的 坐标 
因此 ， 测 量 装置 知道 光平 面 ， 以 及 从 摄像 机 中 心 穿 过 图 像 平 面 进入 三 维 空间 的 光线 。 从 


几何 关系 图 上 我 们 可 以 直观 地 看 到 ， 成 像 光 线 与 光平 面 交 于 一 点 。 通 过 几何 分 析 可 得 到 坐标 
Xoo Yor Zo 由 光平 面 能 得 出 一 个 方程 ， 含 三 个 未 知 数 ; 由 成 像 光线 能 得 出 二 个 方程 ， 也 含 这 三 
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个 未 知 数 。 求 解 这 三 个 线性 联 立 方程 就 得 到 三 维 表面 点 的 位 置 。 第 13 章 给 出 的 标定 
(calibration) 方法 ， 通 过 在 工作 台 上 做 几 次 测量 ， 就 能 推出 必要 的 方程 。 

如 果 照 射 的 是 单 束 光 而 不 是 光平 面 ， 则 上 述 讨论 更 加 简单 。 还 有 其 他 很 多 三 角 测 量 方法 ， 
并 根据 有 具体 应 用 来 选择 传感器 。 要 扫描 整个 场景 必须 用 光平 面 ， 或 者 用 一 束 光 扫 过 场景 。 可 
以 用 扫描 镜 来 实现 这 个 光 能 ， 或 者 用 传送 带 系 统 带 动 目 标 通过 光 面 。 在 文献 中 可 以 发 现 很 多 
创造 性 设计 。 有 共有 多 个 光平 面 的 机 器 ， 在 汽车 制造 时 用 来 校正 车 轮 以 及 检测 车 门 适 配 情况 。 
当 观 察 处 于 特定 位 姿 的 特定 目标 时 ， 图 像 分 析 可 能 只 是 用 来 证 实 一 条 特殊 的 图 像 条 纹 是 否 接 
近 理 想 的 位 置 。 传 感 器 拍摄 的 图 像 流 ， 用 来 在 线 调节 生产 操作 以 进行 质量 控制 ， 以 及 离线 进 
行 报告 分 析 。 
2.10 参考 文献 


有 关 设 计 成 像 装置 方面 的 资料 可 参考 Schalkoff (1989) 所 编 教材 。 电 荷 灿 合 器 件 的 指南 
和 技术 说 明 可 通过 搜索 引擎 在 网 上 找到 : 如 威斯康星 大 学 网 址 www .mrsec.wisc.edu/ 
edetc/ccd.html 上 提供 的 自学 材料 。Dillon 等 人 (1978) 的 文章 是 彩色 CCD 摄 像 机 方面 较 
早 的 几 篇 文章 之 一 。 光 学 现象 的 讨论 与 建 模 可 在 Hecht 和 Zajac (1976) 的 书 中 找到 。 

引出 计算 机 视觉 技术 的 许多 基本 内 容 , 在 心理 学 家 J.J. Gibson (1950) 的 著作 中 能 够 找到 。 
Levine (1985) 所 编 教材 中 ， 从 工程 的 角度 说 明了 动物 视觉 系统 和 人 类 视觉 系统 的 特点 。 
Nalwa (1993) 的 著作 ， 一 开始 讨论 了 人 类 视觉 系统 的 能 力 和 缺陷 ， 并 对 成 像 和 透视 变换 做 
了 很 好 的 直观 性 描述 。Margaret Livingstone (1988) 给 出 了 面向 艺术 欣赏 的 人 类 感知 的 一 个 
流行 处 理 。Haralick 与 Shapiro (1992) 第 二 卷 中 ， 包 含 关于 透视 变换 的 数学 知识 。 关 于 图 像 
文件 格式 的 应 用 细节 和 综述 ， 请 参考 Murray 与 VanRyper (1994) 的 百科 全 书 ， 其 中 包括 一 张 
从 几 处 收集 来 的 常用 软件 工具 CD 盘 。 
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BIS ”一 值 图 像 分 析 


在 许多 实际 应 用 中 ， 如 文档 分 析 或 工业 机 器 视觉 系统 ， 执 行 任务 需要 的 算法 是 以 二 值 图 
像 为 基础 的 。 这 些 算法 的 适用 范围 非常 广泛 ， 从 简单 的 目标 计数 到 复杂 的 目标 识别 、 定 位 及 
检查 等 。 在 分 析 灰 度 图 像 与 彩色 图 像 之 前 ， 先 对 二 值 图 像 分 析 有 所 了 解 ， 将 有 助 于 深入 理解 
整个 图 像 分 析 过 程 。 

本 章 介绍 二 值 机 器 视觉 的 基本 算法 。 首 先 通过 简单 的 目标 计数 算法 让 大 家 明白 : 有 时 只 
用 简单 的 视觉 算法 ， 就 可 以 满足 实际 任务 的 需要 。 接 下 来 讨论 连通 成 分 标记 运算 ， 即 对 每 个 
连通 的 像素 集合 赋 以 独 有 的 标记 ， 这 一 步 是 后 面 大 多 数 处 理 步骤 的 基础 。 然 后 介绍 一 系列 细 
化 和 粗 化 算 子 。 数 学 形态 运算 可 以 对 成 分 进行 连接 或 分 离 ， 可 以 闭合 孔 和 计算 图 像 中 的 兴 
特征 。 如 果 几 个 不 同 的 成 分 被 分 离开 ， 每 个 成 分 的 重要 特征 就 可 以 算出 来 ， 从 而 能 够 进行 更 
高 级 的 识别 与 跟踪 等 任务 。 本 章 将 对 一 些 基 本 特征 进行 定义 ， 并 讨论 计算 这 些 特征 的 算法 的 
精度 。 最 后 研究 通过 自动 国 值 处 理 ， 把 灰 度 图 像 或 彩色 图 像 转 化 为 有 效 二 值 图 像 这 一 问题 。 
3.1 像素 与 邻 域 

对 一 幅 灰 度 图 像 或 者 彩色 图 像 I 进行 处 理 ， 把 其 中 感 兴 趣 的 像素 分 离 出 来 作为 前 景 
(foreground) 像素 ， 而 把 不 感 兴趣 的 其 余部 分 作为 背景 (background) 像素 ， 就 可 以 得 到 一 
幅 二 值 图 像 B。 分 离 运算 有 简 有 繁 ， 如 简单 的 阀 值 运算 能 够 分 离 出 属于 某 个 灰 度 范围 或 者 某 个 
颜色 子 空间 的 像素 ， 也 可 以 使 用 更 复杂 的 分 类 算法 。 阅 值 运 算 将 在 本 章 末 进行 讨论 ， 而 高 级 
的 分 类 选择 运算 分 布 在 本 书 的 各 个 部 分 。 作 为 本 章 的 开始 ， 我 们 约定 所 讨论 的 问题 都 是 在 二 
值 图 像 B 的 基础 上 进行 的 。 图 3-1 借 助 四 幅 手 写字 符 的 二 值 图 像 ， 对 有 关 概 念 进行 说 明 。 





图 3-1 手写 字符 的 二 值 图 像 

二 值 图 像 B 中 的 像素 值 要 么 是 0， 要 么 是 1。 其 中 1 表示 前 景 像素 的 值 ，0 表 示 背 景 像素 的 值 。 
Bir, ce] 表示 位 于 图 像 阵 列 中 第 r 行 、 第 c 列 的 像素 的 值 。 一 幅 M x N 的 图 像 具 有 M 行 和 N 列 ， 行 的 
编号 从 0 到 M-1， 列 的 编号 从 0 到 N-1。 这 样 B[0, 0] 表 示 图 像 左 上 角 的 像素 值 ，B[M-1, N-1] 表 
示 图 像 右 下 角 的 像素 值 。 

在 许多 算法 中 ， 当 对 某 个 像素 进行 运算 时 ， 不 仅 要 用 到 该 像素 的 值 ， 也 要 用 到 它 邻 近 像素 
的 值 。 关 于 邻 点 的 定义 最 常见 的 有 两 种 ， 即 4- 邻 点 (4-neighbor) 和 8- 邻 点 (8-neighbor)。 像 素 
[r, e] 的 4- 邻 域 Ni[r, c] 包 括 4 个 像素 ， 即 [r 一 1, c], [r + 1, c]、[r, c- Air, c+ 1]， 这 4 个 像素 常 
称 为 北 邻 点 、 南 邻 点 、 西 邻 点 和 东 邻 点 。 像 素 [r, c] 的 8- 邻 域 Ns[r, c] 共 包括 8 个 像素 ， 除 了 前 面 
的 4 个 像素 ,再 加 上 对 角 线 上 的 4 个 像素 [r-1, c-1]、[r-1, e+ 1]. [r+1,c-1] 和 [r+ 1, c + 1], 
这 4 个 像素 点 常 称 为 西北 邻 点 、 东 北 邻 点 、 西 南 邻 点 和 东南 邻 点 。 图 3-2 注 明了 这 些 概念 。 
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在 各 种 算法 中 ， 邻 域 We 可 以 是 4- TTI 
邻 域 也 可 以 是 8- 邻 域 (或 者 其 他 定义 )。 一 般 来 说 ， [w| "|E 
如 果 像 素 [r', c1] 位 于 像素 [r, c] 的 某 个 邻 域内 , 我 们 就 d isl | 
HRA, c1] 是 像素 [r, c] 的 邻 点 。 a) 4 邻 域 N4 b) 8- 邻 域 Ns 


i 图 3-2 常用 的 两 种 像素 邻 域 
3.2 图 像 模 板 运算 


图 像 处 理 中 的 一 个 基本 概念 是 图 像 模 板 (mask)， 这 个 概念 来 自 图 像 处 理 中 的 卷 积 运算 ， 
但 通常 可 用 于 图 像 分 析 的 各 个 方面 。 模 板 是 一 组 像素 位 置 及 其 对 应 值 的 集合 ， 这 些 对 应 值 称 
为 权 (weight)。 图 3-3 是 三 个 不 同 的 模板 。 前 
两 个 模板 a 与 b 是 方形 模板 ， 一 个 具有 相等 的 权 
值 ， 即 所 有 的 权 值 均 为 1， 另 一 个 具有 不 等 的 
权 值 。 第 三 个 模板 c 是 一 个 长 方形 模板 ， 各 位 
置 的 权 值 相 等 。 

每 个 模板 都 有 一 个 原点 (origin)， 一般 是 
模板 上 的 一 个 位 置 点 。 对 称 模板 (如 图 3-3 中 
的 a 和 b) 的 原点 常常 就 是 它 的 中 心 像素 。 对 于 不 对 称 模板 ， 根 据 使 用 的 目的 不 同 可 以 选择 任 
何 像素 作为 原点 。 比 如 模板 c 中 可 以 选 最 上 面 的 像素 作为 原点 。 

对 一 幅 输入 图 像 进行 模板 运算 后 ， 将 产生 与 输入 图 像 大 小 一 样 的 输出 图 像 。 把 模板 放 在 
输入 图 像 上 ， 让 模板 的 原点 分 别 与 输入 图 像 的 每 个 像素 点 重合 。 模 板 下 面 的 每 一 个 输入 图 像 
的 像素 值 乘 以 模板 上 对 应 的 权 值 。 然 后 把 结果 相 加 产生 一 个 输出 值 ， 这 个 值 在 输出 图 像 上 的 
位 置 与 输入 图 像 中 正 处 理 的 像素 位 置 对 应 。 图 3-4 显 示 用 图 3-3 中 的 模板 b 对 一 幅 灰 度 图 进行 模 
板 运算 的 情况 。 








a) b) 
图 3-3 三 个 不 同 的 模板 
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b) 3 x 3 模板 


d) 除 以 各 权 之 和 ( 即 16) 
后 的 规范 化 结果 





©) 原始 图 像 及 结果 ， 为 了 便于 观察 ， 
放大 到 120 x 120 


图 3-4 灰 度 图 像 的 加 权 模板 运算 
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始 灰 度 图 像 如 图 3-4a 所 示 。 注 意 当 模板 中 心 位 于 图 像 边 界 上 时 ， 模 板 上 的 一 些 像素 会 处 
在 输入 图 像 的 外 面 。 为 了 使 输出 图 像 与 输入 图 像 大 小 一 致 ， 我 们 在 输入 图 像 的 边界 外 添加 虚 
拟 的 行 和 列 。 在 下 面 的 例子 中 ， 我 们 分 别 在 图 像 的 上 下 左右 添加 了 两 行 和 两 列 。 这 些 虚 拟 行列 
中 的 像素 值 可 任意 设置 为 0 或 其 他 常数 。 这 里 是 采用 最 靠近 它们 的 行列 上 的 像素 值 。 因 此 最 上 
面 一 行 的 像素 值 是 40、40、80、80、80， 最 左边 一 列 的 像素 值 都 是 40， 最 右边 一 列 的 像素 值 都 
是 80， 最 下 面 一 行 的 像素 值 是 40、40、80、80、80。 应 用 模板 b 产 后 的 输出 图 像 c 是 对 输入 图 像 
a 进 行 平 请 处 理 后 的 结果 。 可 以 看 出 结果 中 所 有 的 像素 值 都 比 原 图 的 像素 值 大 得 多 。 为 了 规范 
化 ， 把 结果 中 的 每 个 像素 值 除 以 模板 中 的 各 权 之 和 。 本 例 中 各 权 之 和 为 16， 规 范 化 处 理 后 得 到 
图 像 4。 把 原始 灰 度 图 像 与 结果 灰 度 图 像 显示 在 e 中 ， 为 便于 观察 ， 图 像 放 大 为 120 x 120。 由 于 [53 
放大 作用 ， 一 个 像素 在 结果 图 像 中 对 应 为 宽 24 像 素 的 带 状 ， 因 此 平滑 效果 表现 在 带 级 而 不 是 像 
素 级 。 
3.3 目标 计数 
在 第 1 章 的 应 用 实例 中 , 我 们 知道 对 交叉 支撑 杆 上 面 螺 栓 孔 的 数量 进行 统计 是 非常 必要 的 。 
对 图 像 前 景 中 目标 个 数 的 统计 ， 与 统计 螺栓 孔 数 量 的 问题 差不多 ， 可 以 用 同样 的 算法 ， 只 是 
把 两 组 模板 E 和 I 的 角色 互 换 一 下 。 统 计 前 景 中 目标 的 数量 时 ， 外 角 模 式 是 具有 三 个 0 值 像 素 和 
一 个 1 值 像素 的 2 x 2 模板 。 内 角 模 式 是 具有 三 个 1 值 像素 和 一 个 0 值 像素 的 2 x 2 模板 。 图 3-5 显 
示 了 这 两 组 模板 。 注 意 该 算法 要 求 每 个 目标 是 4- 连 通 的 1 值 像 素 的 集合 ， 并 且 内 部 没有 0 值 孔 。 
mietit Etter ett 
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图 3-5 2 x 2 模板 ， 用 来 统计 二 值 图 像 中 前 景 目标 的 个 数 。 
1 表示 前 景 像素 的 值 ，0 表 示 背 景 像素 的 值 

用 这 些 模板 对 二 值 图 像 进行 处 理 ， 可 形象 化 地 认为 是 把 模板 放 在 图 像 上 ， 使 模板 的 左上 角 
像素 与 图 像 中 被 考虑 的 像素 重合 。 这 时 模板 确定 了 图 像 像 素 的 -- 个 邻 域 ， 该 邻 域 由 被 考虑 的 像 
素 、 其 右边 的 像素 和 下 边 的 两 个 像素 组 成 。 如 果 图 像 上 对 应 位 置 的 四 个 像素 值 正好 与 模板 上 的 
像素 值 一 致 ， 则 模板 的 角 类 型 就 是 图 像 上 该 点 像素 所 对 应 的 角 类 型 。 函 数 external_match(L, P) 
依次 采用 四 个 外 角 模 板 进行 计算 ， 如 果 包 含 左 上 角 像 素 [L, P] 的 子 图 像 与 某 一 个 外 角 模 板 相 匹 
配 ， 则 消 数 返回 值 为 真 ， 否 则 函数 返回 值 为 假 。 同 样 地 ， 如 果 包 含 左 上 角 像 素 [L, P] 的 子 图 像 
与 某 一 个 内 角 模 板 相 匹配 ， 则 函数 internal_match(L, P) 返回 值 为 真 ， 否 则 返回 值 为 假 。 除 了 
二 值 图 像 B 中 的 最 后 一 行 和 最 后 一 列 ， 目 标 计 数 函 数 count_objects(B) 对 其 他 位 置 的 每 个 像素 
都 循环 计算 一 次 ， 并 返回 图 像 中 目标 物体 的 个 数 。 图 像 B 中 最 后 一 行 和 最 后 一 列 的 像素 ， 不 能 
用 这 样 的 2 x 2 模板 。 

算法 约定 ”算法 3.1 是 统计 目标 数量 的 伪 代 码 程序 。 全 书 所 有 的 程序 都 使 用 这 种 句法 结构 。 
注意 我 们 把 所 有 的 例 程 都 称 为 过 程 (procedure ) ， 通 过 return 语 名 返 回 值 (类 似 C 语 言 ) 的 过 
程 称 为 函数 。 为 了 保证 程序 尽量 简短 ， 采 用 功能 函数 ， 如 exrernal_match 和 internal_match。 类 
似 这 样 的 功能 函数 非常 直观 明了 ， 其 代码 在 书 中 就 省 略 了 。 我 们 也 省 略 了 与 语言 相关 的 类 型 

声明 ， 但 书 中 会 对 类 型 要 求 进行 详 述 ， 并 在 注释 行 对 重要 的 变量 进行 解释 。 最 后 ， 程序 使 用 [55] 

全 局 常量 ， 以 避免 参数 传递 所 带 来 的 麻烦 。 
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在 目标 计数 程序 中 ,常数 MaxRow 是 图 像 最 后 一 行 的 编号 ， 而 MaxCol 是 图 像 最 后 一 列 的 编 
。 第 一 行 和 第 一 列 的 编号 都 是 0， 这 是 C 语 言 中 数组 的 缺 省 设置 。 
算法 3.1 计算 二 值 图 像 B 中 的 前 景 目标 的 数量 
目标 是 4- 连 通 的 而 且 是 单 连通 。 
E 是 外 角 的 数目 。 
I 是 内 角 的 数目 。 
procedure count_objects(B); 
{ 
E :=0; 
E0; 
for L :=0 to MaxRow- 1 
for P :=0 to MaxCol- 1 
{ 
if external_match(L, P) then E := E + 1; 
if internal_match(L, P) then I := I + i; 
}; 
return((E — 了 /4); 
} 


习题 3.1 计数 效率 问题 


过 程 count_objects 对 图 像 中 的 每 个 像素 都 计算 一 遍 ， 最 多 需要 计算 多 少 次 ? 如 何 编 写 
external_match 与 internal_match 的 代码 ， 使 程序 的 效率 尽 可 能 地 高 


习题 3.2 驾车 问题 


号 















过 或 者 接触 先前 经 过 的 交叉 点 吗 ? 这 种 情况 可 能 吗 ? 为 什么 9 在 回答 之 前 ， 先 考虑 只 有 两 个 
黑色 方块 的 情况 ， 它 们 沿 对 角 线 方向 接触 ， 有 一 个 交叉 点 。 你 的 左右 计数 规则 还 起 作用 吗 ? 


3.4 连通 成 分 标记 

假设 B 是 一 幅 二 值 图 像 ， 而 且 B[r, ec] = Bir’, cq] = 其 中 v= 0 或 者 v = 1。 如 果 存 在 一 个 像素 
序列 [r, c] = [rw Co], [ru ed], … [rs , Cal = [r', €"), 其 中 B[m, ¢] =v, i=0,..., n， 并 且 对 任何 i = 1, ..., 
n, [r, G6] 与 [ri_y, ci_1] 都 是 相 邻 的 ， 则 像素 [r, e] 与 像素 [r' co 通过 值 v 连 在 一 起 。 像 素 序列 [ro, co], .… 
[ru cn] 就 形成 了 从 [r, cj] 到 [r' cq] 的 连接 路 径 (path). 一 个 值 为 "的 连通 成 分 ， 即 值 为 "的 像素 集合 C， 
集合 中 的 每 一 对 像素 都 通过 值 v 相 连接 。 图 3-6a 是 一 幅 二 值 图 像 ， 内 有 值 为 1 的 五 个 连通 成 分 。 实 
际 上 这 些 成 分 是 8- 邻 域 连通 或 者 是 4- 邻 域 连通 。 
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定义 14 连通 成 分 标记 (connected components labeling) 对 二 值 图 像 B 做 标记 ， 生 成 

标号 图 像 LB ， 标 号 图 像 中 每 个 像素 的 值 就 是 像素 所 在 连通 成 分 的 标号 

标号 是 专门 命名 一 个 实体 所 用 的 符号 。 虽 然 可 以 用 字符 标记 ， 但 正 整 数 用 起 来 更 加 方便 ， 
因此 常常 用 正 整数 标记 连通 成 分 。 图 3-6b 显 示 的 是 连通 成 分 标记 ， 是 对 图 3-6a 的 二 值 图 像 进行 
标记 的 绪 果 
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a) 二 值 图 像 












二 值 图 像 与 标号 图 像 ， 为 便 于 观察 行 了 放大 


图 3-6 内 含 五 个 值 为 1 的 连通 成 分 的 二 值 图 像 

连通 成 分 标记 有 多 种 不 同 的 算法 。 一 些 算法 假设 内 存 能 够 载 入 整 幅 图 像 ， 使 用 简单 的 递 
归 算 法 每 次 处 理 一 个 成 分 ， 可 对 整 幅 图 像 进行 扫描 。 有 的 算法 针对 较 大 的 图 像 ， 由 于 内 存 有 
限 不 能 载 和 人 整 幅 图 像 ， 算 法 每 次 只 处 理 图 像 中 的 两 行 。 还 有 其 他 一 些 算法 适合 在 大 型 并 行 机 
上 使 用 ， 采 用 并 行 传播 策略 。 本 章 我 们 讨论 两 种 不 同 的 算法 : a Z 
行 算法 用 特殊 的 并 查 数据 结构 来 跟踪 成 分 。 
3.4.1 递归 标记 算法 

假设 B 是 MaxRow+1 行 、MaxCol+1 列 的 二 值 图 像 。 我 们 希望 找到 像素 值 为 1 的 连通 成 分 ， 
并 输出 标号 图 像 LB， 在 标号 图 像 中 每 个 像素 的 值 就 是 连通 成 分 的 标号 。 参 考 Tanimoto 所 著 的 
«Artificial Intelligence》， 算 法 策略 是 : 首先 把 二 值 图 像 的 像素 值 取 负 ， 使 原来 值 为 1 的 像素 变 
成 值 为 -1。 这 样 就 可 以 把 未 处 理 的 像素 ( 值 为 -1) 与 成 分 标记 1 分 开 。 由 函数 negate 实 现 这 一 
功能 ， 输 入 的 是 二 值 图 像 B， 输 出 的 是 取 负 后 的 图 像 ， 这 个 图 像 最 后 成 为 标号 图 像 LB。 寻 找 
连通 成 分 的 过 程 变 成 了 寻找 LB 中 值 为 -1 的 像素 的 过 程 ， 把 找到 的 像素 赋 以 一 个 新 的 标号 ， 并 
调用 过 程 searcpn 去 寻找 值 为 -1 的 邻 点 ， 并 对 这 些 邻 点 递归 地 重复 执行 这 个 过 程 。 效 用 函数 
neighbors(L, P) 中 的 L 和 P 确 定 像素 的 位 置 。 该 函数 返回 所 有 邻接 像素 的 位 置 ， 可 以 是 4- 邻 域 ， 
也 可 以 是 8- 邻 域 ， 只 返回 二 值 图 像 中 合法 的 邻 点 位 置 。 函 





数 返回 邻 点 的 顺序 与 扫描 顺序 一 致 ， 如 图 3-7 所 示 。 递 归 aT 
ERORIA, Kipnegare, print) L 


neighbors 需 要 读者 编写 代码 。 
图 3-8 以 二 值 图 3-6 的 第 一 个 成 分 (左上 角 区 域 ) 为 例 ， 
显示 递归 连通 标记 算法 的 运行 过 程 。 


图 3-7 像素 邻 点 扫描 顺序 
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图 3-8 显示 递归 标记 算法 的 前 5 步 ， 对 二 值 图 3-6 中 的 第 一 个 成 分 进行 搜索 。 显 示 的 图 像 是 
(部 分 ) 标记 了 的 图 像 LB。 图 中 的 粗 体 像素 是 搜索 程序 正 处 理 的 像素 。 按 图 3-7 所 示 
的 邻 域 搜索 顺序 ， 在 每 一 步 ， 选 择 粗 体 像 素 的 邻 点 中 首次 遇 到 的 未 处 理 的 邻 点 〈 即 
值 为 -1)， 作 为 下 一 步 要 处 理 的 像素 


算法 3.2 计算 二 值 图 像 中 的 连通 成 分 
B 是 原始 二 值 图 像 。 
LB 是 连通 成 分 标号 图 像 。 
procedure recursive_connected_components(B, LB); 
{ 
LB := negate(B); 
label :=0; 
find_components(LB, label); 
print(LB); 
} 
procedure find_components(LB, label); 
{ 
for L :=0 to MaxRow 
for P :=0 to MaxCol 
if LB[L, P] == —1 then 


{ 
label := label + 1; 
search(LB, label, L, P); 


} 


} 
procedure search(LB, label, L, P); 
{ 
LB[L, P] := label; 
Nset := neighbors(L, P); 
for each[L’, P'] in Nset 
{ 
if LB[L’, P’] == -1 
then search(LB, label, L’, P^; 
} 
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3.4.2 逐 行 标记 算法 

经 典 算 法 是 由 Rosenfeld 和 Pfaltz 于 1966 年 提出 的 ， 称 之 为 经 典 算法 是 因为 它 以 经 典 的 图 连 
通 成 分 算法 为 基础 。 这 种 算法 需要 扫描 图 像 两 次 : 一 次 是 记录 等 价 对 并 赋予 一 个 临时 标号 ， 
第 二 次 是 用 等 价 类 的 标号 代替 每 个 临时 标号 。 在 这 两 次 之 间 ， 记 录 的 等 价 对 集合 以 二 元 关系 
进行 存储 ， 对 等 价 集合 进行 处 理 从 而 确定 二 元 关系 的 等 价 类 。 从 那 时 起 ， 并 查 (union-find) 
算法 ， 即 随 着 找到 等 价 对 而 动态 地 构造 等 价 类 的 算法 ， 被 广泛 应 用 于 计算 机 科学 中 。 并 查 数 
据 结 构 能 够 有 效 地 构造 和 操作 用 树 结构 表示 的 等 价 类 ， 增 加 这 一 数据 结构 使 经 典 算法 的 性 能 
得 到 了 提高 。 

1. 并 查 结 构 

并 查 数据 结构 的 目的 是 为 了 把 不 相交 的 集合 储存 在 一 起 ， 以 及 为 了 有 效 地 实现 合并 
(union, 即 把 两 个 集合 合并 为 一 个 ) 运算 及 查找 (find, 确 PARENT 
定 特 殊 元 素 所 在 的 集合 ) 运算 。 每 个 集合 存储 成 树 形 结构 ， 213s ele ite 
树 的 节点 代表 一 个 标号 ， 并 指向 它 的 父 节 点 。 实 现 这 个 结 L213|10|13|17171o[3| 
构 只 需要 一 个 向 量 数组 PARENT， 其 下 标 就 是 标号 ， 元 素 
的 值 是 父 节 点 的 标号 。 父 节点 的 值 为 零 意 味 着 这 个 节点 是 3 
树 的 根 节点 。 图 3-9 是 两 组 标号 {1, 2, 3, 4, 8} 和 {5, 6, 7] 的 UN /\ 
树 形 结构 。 标 号 3 是 父 节点 ， 并 作为 第 一 个 集合 的 标号 。 2 4 8 5 6 
标号 7 是 另 一 个 父 节 点 ， 并 作为 第 二 个 集合 的 标号 。 数 组 / 
PARENT 中 的 元 素 值 告诉 我 们 节点 3 与 节点 7 没有 父 节 点 ， 图 3-9 两 组 标号 的 并 查 数据 结构 。 第 
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标号 2 是 标号 1 的 父 节点 ， 标 号 3 是 标号 2、4 和 8 的 父 节 点 ， 一 组 包括 标号 {1, 2, 3, 4, 8}, 
等 等 。 注 意 数组 中 没有 标号 为 0 的 元 素 ， 因 为 0 表示 背景 像 第 二 组 包括 标号 {5, 6, 7}。 对 
素 ， 而 且 数组 中 元 素 的 值 为 意味 着 这 个 节点 没有 父 节点 。 每 一 个 整数 标号 i，PARENTHH] 

find 过 程 所 带 的 参数 是 标号 X 和 父 数 组 PARENT。 访 RHEE Sma: UR 


i 是 一 个 根 节点 ， 没 有 父 节 点 ， 


点 的 标号 。Union 过 程 所 带 的 参数 是 标号 X、 标 号 了 和 父 数 
组 PARENT。 访 过程 对 结构 进行 修改 (如 果 有 必要 )， 合 并 含 X 的 集合 和 含 Y 的 集合 。 从 标号 
XX 和 标号 Y 开 始 ， 沿 树 向 上 跟踪 父 指针 ， 直 到 找到 两 集合 的 根 节点 为 止 。 如 果 两 个 根 节点 不 一 
样 ， 则 把 其 中 一 个 标号 作为 另 一 个 标号 的 父 节 点 。 下 面 的 合并 程序 中 把 X 作 为 Y 的 父 节 点 。 根 
据 集合 的 规模 ， 把 较 小 的 集合 附加 到 较 大 集合 的 根部 也 是 可 以 的 ,而 且 可 以 保持 树 的 深度 向 
下 伸展 。 
算法 3.3 查找 集合 中 的 父 节点 标号 
X 是 集合 的 标号 。 
PARENT 是 包含 并 查 数据 结构 的 数组 。 
procedure find(X, PARENT); 
{ 
j:=X; 
while PARENT[j]<>0 
j := PARENTIji; 
return(j); 


} 
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算法 3.4 合并 两 个 集合 
X 是 第 个 集合 的 标号 。 
Y 是 第 二 个 集合 的 标号 。 
PARENT 是 包含 并 查 数据 结构 的 数组 。 
procedure union(X, Y, PARENT); 
{ 
j:= X; 
k := Y; 
while PARENTÍJ] <> 0 
j :=PARENTDj]; 
while PARENT[k] <> 0 
k :=PARENT[k]; 
if j<>k then PARENT[K] :=j; 
} 


2. 具有 并 查 结构 的 经 典 连通 成 分 标记 算法 

并 查 数据 结构 使 经 典 的 连通 成 分 标记 算法 更 加 高 效 。 算 法 的 第 一 次 扫描 执行 标号 传播 ， 
把 像素 标号 传播 到 右 下 方向 的 邻 点 。 当 出 现 两 个 不 同 的 标号 传播 到 同一 个 像素 的 情况 时 ， 就 
传播 较 小 的 标号 ， 每 当 发 现 这样 的 等 价 对 就 进入 并 查 结构 。 第 一 次 扫描 结束 后 ， 已 完全 确定 
每 个 等 价 类 ， 而 且 每 个 等 价 类 有 惟一 标号 ， 也 就 是 并 查 结构 中 树 的 根 节点 。 第 二 次 扫描 图 像 
时 ， 进 行 变换 ， 把 等 价 类 的 标号 赋 给 每 个 像素 。 

程序 用 到 两 个 附加 的 功能 图 数 : prior_neighbors 和 1abpe1g。prior_neighporsy 国 数 返 回 上 边 
及 左边 的 1 值 像素 的 集合 ， 程 序 代码 可 以 针对 4- 邻 域 (返回 北 、 西 邻 点 ) 或 者 针对 8- 邻 域 ( 返 
回 西北 、 北 、 东 北 和 西 邻 点 )。labels 函 数 返 回 赋 给 已 知 像素 集合 的 当前 标号 集合 。 

图 3-10 以 二 值 图 像 图 3-6 为 例 ， 显 示 具 有 并 查 结构 的 经 典 算法 的 应 用 。 图 3-10a 显 示 第 一 次 
扫描 图 像 后 各 像素 对 应 的 标号 。 图 3-10b 是 等 价 类 的 并 查 数据 结构 ， 显 示 出 第 一 次 扫描 后 确定 
的 等 价 类 是 {{1, 2}, (3, 7}, 4, 5, 6}。 图 3-10c 表 示 第 二 次 扫描 之 后 的 图 像 标 号 。 连 通 成 分 代表 

[61] 图 像 中 的 区 域 ， 其 形状 及 亮度 特征 可 以 计算 出 来 。 我 们 将 在 3.5 节 讨论 这 些 特 征 。 

算法 3.5 ”经典 连通 成 分 数据 结构 的 初始 化 

procedure initialize(); 
N 初 始 化 全 局 变量 label 和 数组 PARENT。 


{ 
\ 初 始 化 label。 





labelc := 0; 

N 初 始 化 并 查 结构 。 
fori:= 1 to MaxLab 
PARENTTI] := 0; 

} 
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b) 等 价 类 的 并 查 结构 c) 第 二 次 扫描 
图 3-10 对 应 二 值 图 像 图 3-6， 使 用 具有 并 查 数据 结构 的 经 典 标 记 算 法 


后 


的 结果 








算法 3.6 计算 具有 并 查 结构 的 二 值 图 像 的 连通 成 分 
B 是 原始 二 值 图 像 。 
LB 是 连通 成 分 标号 图 像 。 
procedure classical_with_union-find(B, LB); 
{ 
\ 初 始 化 结构 。 
initialize(); 
\ 第 一 次 : 为 图 像 的 每 一 行 L 赋 初始 标号 。 
for L := 0 to MaxRow 
{ 
WL 行 的 所 有 值 初始 化 为 0。 
for P := 0 to MaxCol 
LBIL, P} := 0; 
\N 处 理工 行 。 
for P := 0 to MaxCol 
if B(L, P] == 1 then 
{ 
A := prior_neighbors(L, P); 
if isempty(A) 
then {M := label; label := label+1;}; 
else M :=min(labels(A)); 
LB[L,P] :=M; 
for X in labels(A) and X<>M 
union(M, X, PARENT); 
} 
} 
\ 第 二 次 : 用 等 价 类 的 标号 代替 第 一 次 的 标号 。 
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for L := 0 to MaxRow 
for P := 0 to MaxCol 
if B[L, P] == 1 


then LB[L, P] := find(LB[L, P], PARENT); 





3. 游程 编码 连通 成 分 标记 

第 2 章 已 经 讲 过 ， 二 值 图 像 的 游程 编码 (Run-Length Encoding) 是 像素 值 连续 为 1 的 水 
平 游程 的 列表 。 对 每 一 个 游程 ， 必 须 记录 它 起 始 像素 的 位 置 ， 它 的 长 度 或 者 结束 像素 的 位 
置 。 参 考 图 3-11 所 示 的 游程 数据 结构 的 例子 。 图 像 中 的 每 一 个 游程 ， 用 它 的 起 始 和 结束 像 
素 位 置 进行 编码 。(ROW, START_COL) 是 起 始 像素 的 位 置 ，(ROW, END_COL) 是 结 
束 像素 的 位 置 ，LABEL 字 段 中 存储 着 本 次 游程 所 属 的 连通 成 分 的 标号 。 开 始 时 LABEL 字 
段 被 初始 化 为 0， 第 一 次 扫描 时 赋 以 LABEL 字 段 临时 值 ， 第 二 次 扫描 结束 ，LABEL 字 段 中 
包含 最 终 的 、 永 久 的 游程 标号 。 然 后 通过 这 种 结构 输出 标号 结果 ， 结 果 显 示 在 输出 图 像 的 

[62] 对 应 像素 位 置 上 。 









ROW_START ROW_END 
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b) 


c) 

图 3-11 二 值 图 像 a 及 其 游程 编码 > 和 c。 像 素 值 为 1 的 游程 通过 所 在 的 行 (ROW) 以 及 起 始 
点 、 终 止 点 所 在 的 列 (START_COL 和 END_COL) 进行 编码 。 另 外 对 图 像 的 每 一 

行 ，ROW_START 指 向 本 行 的 第 一 个 游程 ， ROW_END 指 向 本 行 的 最 后 一 个 游程 。 

字段 LABEL 最 初 的 值 是 0， 最 后 存储 的 是 游程 的 成 分 标号 


Oe 标记 算法 比较 
假设 一 幅 二 值 图 像 具 有 一 个 前 景区 域 ， 是 1000 x 1000 的 正方 形 区 域 。 递 归 算 法 需要 访问 
(ERS) 每 个 像素 多 少 次 ? 经典 算 法 需要 访问 每 个 像素 多 少 次 ? 
a j We ee 
由 于 等 价 标号 被 合并 到 一 个 等 价 类 ， 一 些 在 第 一 次 得 到 的 初始 标号 在 第 二 次 中 就 会 丢失 ， 
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结果 使 最 终 的 标号 数字 序列 存在 许多 间隔 ， 而 不 是 连续 的 。 编 写 再 标记 程序 ， 把 结果 转换 成 
从 1 到 图 像 成 分 个 数 的 连续 序列 。 


习题 3.5 游程 编码 


设计 并 实现 逐 行 标记 算法 ， 要 求 利 用 二 值 图 像 的 游程 编码 而 不 是 图 像 本 身 ， 用 结构 的 
LABEL 字 段 储存 游程 的 标号 。 


3.5 二 值 图 像 形态 学 

形态 学 (morphology) 这 一 名 词 涉 及 到 形状 与 结构 ， 在 计算 机 视觉 中 可 用 来 计算 区 域 的 
形状 。 数 学 形态 学 (mathematical morphology) 的 运算 最 初 是 集合 的 运算 ， 二 维 图 像 点 的 集 
合 可 通过 形态 运算 进行 处 理 。 本 节 对 二 值 形态 运算 进行 定义 ， 并 说 明 如 何 用 这 些 算法 处 理 经 
连通 成 分 标记 后 的 区 域 。 
3.5.1 结构 元 

二 值 形态 运算 的 对 象 是 二 值 图 像 B 和 结构 元 (structuring element) S， 结 构 元 一 般 是 一 幅 
很 小 的 二 值 图 像 。 结 构 元 代表 一 种 形状 ， 其 大 小 和 结构 可 以 是 任意 的 ， 并 能 通过 二 值 图 像 表 
示 出 来 。 有 一 些 通用 的 结构 元 ， 如 一 定 维 数 的 长 方形 [BOX(1, w)]， 或 者 一 定 直径 的 圆 形 区 域 
[DISK(d)]。 有 的 图 像 处 理 软 件 包 中 提供 基本 的 结构 元 库 。 图 3-12 显示 的 是 一 些 通用 的 结构 元 
和 几 个 非 标准 的 结构 元 。 


EREREIWER 
pa tata [i | 
fifa ad 


a) BOX(3, 5) 





图 3-12 结构 元 示例 (空白 处 的 值 为 0) 

结构 元 能 够 充当 二 值 图 像 的 探 针 。 结 构 元 上 的 某 个 像素 作为 结构 元 的 原点 (origin)， 对 
称 的 结构 元 一 般 选 中 心 像素 作为 它 的 原点 ， 但 原则 上 可 以 选任 何 像素 作为 原点 。 把 原点 作为 
参考 点 ， 在 图 像 上 面 任意 移动 结构 元 ， 就 可 以 通过 结构 元 的 形状 使 一 个 区 域 变 大 ， 或 者 检查 
这 个 形状 是 否 能 填 人 一 个 区 域 。 例 如 ， 我 们 想 检查 一 个 孔 的 大 小 ， 就 可 以 通过 试探 一 个 小 的 
圆 盘 是 否 能 够 完全 填 人 某 个 区 域 ， 而 稍 大 的 圆 盘 则 不 能 填 入 。 
3.5.2 基本 运算 

基本 的 二 值 形态 运算 有 四 种 : 膨胀 (dilation)、 腐 蚀 (erosion)、 闭 合 (closing) 与 开启 
(opening)。 顾 名 思 义 ， 膨 胀 运算 使 区 域 扩大 ， 而 腐蚀 运算 使 区 域 变 小 。 闭 运算 可 以 填充 区 域 
内 的 小 孔 和 消除 沿边 界 的 缺口 。 开 运算 可 以 去 掉 区 域 边界 处 由 里 向 外 的 毛刺 。 数 学 定义 如 下 : 


定义 15 平移 : 像素 集 X 通 过 位 置 向 量 : 进 行 的 平移 X,， 定 义 如 下 : 





[65] 
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X,={x+t|x eX} (3-1) 


HOP AR AA LR, FOP EAL EAB). FERA PRO 
(Ar, Ac) 确定 ， 其 中 Ar 是 行 方向 的 移动 量 ，Ac 是 列 方向 的 移动 量 。 


定义 16 膨胀 : 用 结构 元 S 对 二 值 图 像 B 进 行 的 膨胀 运算 表示 为 B@S， 定 义 如 下 : 


B@S= Us, 
beB (3-2) 


这 种 合并 运算 可 以 认为 是 一 种 邻 域 算 子 。 用 结构 元 S 扫 过 整 幅 图 像 。 输 出 图 像 的 像素 值 初 
始 化 为 0， 一 旦 结构 元 的 原点 每 次 遇 到 二 值 图 像 中 值 为 1 的 像素 时 ， 结 构 元 整体 形状 就 与 输出 
图 像 进行 逻辑 “或 ”运算 。 图 3-13a 是 二 值 图 像 ， 图 3-13b 是 3 x 3 方形 结构 元 ， 图 3-13c 是 经 图 
13-13b 方 形 结构 元 膨胀 后 的 结果 。 

为 了 理解 数学 定义 ， 考 虑 二 值 图 像 B 中 的 第 一 个 值 为 1 的 像素 。 它 的 坐标 是 [1,0] ， 表 示 位 
于 图 像 的 第 1 行 、 第 0 列 。 平 移 Su.o 的 意思 是 ， 将 结构 元 S 的 原点 〈 即 中 心 ) 与 二 值 图 像 上 的 点 
[1,0] 重 合 ， 然 后 把 结构 元 的 每 一 点 与 输出 图 像 对 应 点 进行 逻辑 “或 ”运算 。“ 或 ”运算 的 结果 
是 ， 输 出 图 像 (其 像素 初 值 为 0) 在 实际 点 [0, 0]、[0, 1]、[1, 0]、[1, 1]、[2, 0]、[2, 1] 处 的 像 
素 值 为 1， 在 点 [0, -1]、[1, -1], [2, -1] 处 的 像素 值 也 为 1， 但 这 几 个 位 置 实 际 是 不 存在 的 ， 
所 以 要 忽略 掉 。 对 于 图 像 B 的 下 一 个 像素 [1, 1]， 平移 S0. y 就 是 将 结构 元 S 的 原点 与 二 值 图 像 上 
的 点 [1, 1 重合, 再 把 结构 元 的 每 点 与 图 像 中 的 对 应 点 进行 “或 ”运算 ,输出 图 像 在 位 置 [0, 0]、 
[0, 1]. [0,2]. [1,0], [1,1], [1,2], [2,0]. [2,1], [2, 2] 处 的 像素 值 为 1。 这 个 过 程 继 续 进行 ， 


. 直到 对 输入 图 像 的 每 个 像素 都 进行 了 逻辑 “或 ”运算 为 止 ， 最 后 结果 显示 在 图 3-13c 中 。 


定义 17 腐蚀 : 用 结构 元 S 对 二 值 图 像 B 进 行 的 腐蚀 运算 表示 为 B @ S, 定义 如 下 : 
BOS={b|b+sEBVseES} (3-3) 
腐蚀 运算 也 要 用 结构 元 扫 过 整 幅 图 像 。 针 对 二 值 图 像 上 的 每 一 个 像素 点 ， 如 果 结 构 元 上 每 
一 个 值 为 1 的 像素 都 覆盖 着 二 值 图 像 上 一 个 值 为 1 的 像素 ， 则 将 二 值 图 像 上 与 结构 元 原点 对 应 
的 像素 与 输出 图 像 对 应 点 进行 逻辑 “或 ”运算 。 3-13d 是 经 3 x 3 方形 结构 元 对 二 值 图 像 3-13a 进 
行 腐 蚀 运算 的 结果 。 
膨胀 与 腐蚀 是 最 基本 的 数学 形态 运算 ， 对 它们 进行 组 合 就 产生 另外 两 种 常用 的 运算 : 闭 
运算 和 开 运 算 。 
定义 18 AA: 用 结构 元 S 对 二 值 图 像 B 进 行 的 闭 运 算 表 示 为 B。S， 定义 如 下 : 
BeS=(B®S)OS (3-4) 
定义 19 开启 : 用 结构 元 S 对 二 值 图 像 B 进 行 的 开 运算 表示 为 B oS， 定义 如 下 : 
BoS=(BOS)®S (3-5) 
图 3-13e 是 经 3 x 3 方形 结构 元 对 二 值 图 像 3-13a 进 行 闭 运算 的 结果 ，3-13f 是 用 同样 结构 元 
对 二 值 图 像 进行 开 运 算 的 结果 。 


习题 3.6 使 用 基本 的 二 值 形 态 运算 


摄像 机 拍 了 一 幅 图 像 T， 图 中 有 1 分 、1 角 和 25 美 分 的 硬币 各 一 枚 ， 互 相 不 接触 ， 背景 为 白 
色 。 用 阔 值 运算 建立 二 值 图 像 B ， 硬 币 区 域 像素 值 为 1， 背 景 像素 值 为 0。 已 知 硬 币 的 直径 是 
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D>、Dp 和 Do。 用 数学 形态 运算 (膨胀 、 腐 蚀 、 开 启 和 闭合 ) 以 及 逻辑 运算 AND、OR、NOT 
和 MINUS ( 求 差 )， 看 看 如 何 产 生 三 幅 二 值 图 像 P、D 和 Q。P 中 应 该 只 有 1 分 的 硬币 (像素 值 
为 1 )，D 中 应 该 只 有 1 角 的 硬币，Q 中 应 该 只 有 25 美 分 的 硬币 。 





c) 膨胀 运算 B@S d) 腐蚀 运算 BS 





图 3-13 基本 的 二 值 形态 运算 。 前 景 像素 值 为 1， 背 景 像素 值 为 0 (图 中 空白 处 ) 


3.5.3 二 值 形态 学 的 应 用 

经 国 值 化 或 者 共 他 方法 预 处 理 后 的 图 像 ， 如 果 连 通 成 分 内 部 有 小 孔 ， 或 者 应 当 分 开 的 一 对 
成 分 被 前 景 像素 构成 的 细小 区 域 连接 ， 这 时 就 可 通过 闭 运算 和 开 运 算 解 决 问题 。 图 3-14a 是 一 
幅 512 x 512 的 16 位 灰 度 医学 图 像 ; 图 3-14b 是 闪 值 处 理 后 的 结果 ， 所 用 的 阔 值 为 1070; 图 3-14c 
是 形态 运算 结果 ， 通 过 开 运算 把 不 同 的 组 织 分 开 ， 又 通过 闭 运 算 去 掉 小 孔 。 开 运算 中 用 的 结构 
元 是 DISK(13)， 闭 运算 中 用 的 结构 元 是 DISK(2)。 

在 工业 机 器 视觉 中 ， 也 可 用 形态 运算 完成 特殊 的 检查 任务 。Sternberg 于 1985 年 通过 形态 
运算 检查 手表 的 齿轮 是 否 有 缺损 或 断 齿 现象 。 图 3-15a 是 手表 齿轮 的 二 值 图 像 。 具 轮 主体 上 有 
四 个 贺 孔 ,边缘 是 轮 齿 ， 每 个 轮 具 在 图 像 中 清晰 可 见 。 为 了 对 手表 齿轮 图 像 进行 处 理 ， 
Sternberg 定义 了 几 个 专用 的 结构 元 ， 其 形状 和 大 小 从 此 轮 的 物理 特性 得 出 。 在 手表 齿轮 检查 
算法 中 ， 使 用 的 结构 元 如 下 : 





用 户 可 以 观察 到 的 足够 大 的 斑点 。 
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a) 医学 图 像 G b) 阔 值 处 理 后 的 图 像 B c) 形态 运算 结果 
图 3-14 形态 运算 在 医学 图 像 中 的 应 用 。a 中 显示 的 是 512 x 512 的 16 位 医学 图 像 ， 经 阔 值 
( 国 值 为 1070) 处 理 后 产生 了 二 值 图 像 b。 通 过 结构 元 DISK (13) 进行 开 运 算 ， 
再 通过 结构 元 DISK (2) 进行 团 运算 ， 产 生出 结果 c 
“hole_ring: 像素 环 ， 其 直径 比 手表 齿轮 上 四 个 圆 孔 的 直径 稍微 大 一 点 。 它 正好 包围 这 些 
圆 孔 ， 可 用 来 标 出 圆 孔 中 心 位 置 的 几 个 像素 。 

*hole_mask: 八 边 形 结构 元 ， 比 手表 齿轮 上 的 圆 孔 稍微 大 一 点 。 

*gear_body: 圆 盘 形 结构 元 ， 大 小 等 于 齿轮 去 掉 轮 齿 所 剩余 的 部 分 。 

“Sampling_ring_spacer: 圆 盘 形 结构 元 ， 可 把 齿轮 体 稍微 向 外 扩大 一 点 。 

e sampling_ring_width: 圆 盘 形 结构 元 ， 可 把 齿轮 体 向 外 扩大 到 齿 类 部 分 。 

*tip_spacing: 圆 盘 形 结构 元 ， 直 径 等 于 齿 尖 轮廓 的 直径 。 

*defect_cue: 圆 盘 形 结构 元 ， 用 于 扩大 环 症 以 便于 观察 。 

图 3-15 显 示 的 是 轮 齿 瑕 症 检 查 过程 。 图 3-15a 是 要 检查 的 原始 二 值 图 像 。 图 3-15b 是 用 
hole_ring 结 构 元 对 原 图 进行 腐蚀 后 的 结果 。 在 每 个 圆 孔 的 中 心 生成 几 个 像素 的 聚集 点 ， 其 聚 
集 像素 的 值 为 1。 只 有 能 被 hole_ring 结构 元 完全 覆盖 的 目标 区 域 ， 才 能 产生 这 样 的 图 像 。 图 
3-15c 是 用 结构 元 hole_mask 对 该 图 像 进行 膨胀 运算 后 的 效果 ， 即 四 个 八 边 形 代替 了 原来 位 置 
上 的 四 个 贺 孔 。 图 3-15d 是 将 4 个 八 边 形 与 原始 二 值 图 像 进 行 逻 辑 “ 或 ”运算 的 结果 ， 齿 轮 上 
的 四 个 孔 被 填 满 。 

下 一 步 是 生成 取样 圆 环 ， 用 来 检查 轮 齿 。 通过 结构 元 gear_body 对 图 3-15d 进 行 开 运算 除 
去 轮 上 元 ， 然 后 用 结构 元 sampling_ring_spacer 进 行 膨胀 使 之 达到 此 根部 ， 再 通过 结构 元 
sampling_ring_width 脱 胀 图 像 到 齿 尖 部 ,最 后 一 次 的 结果 减 去 第 二 次 的 结果 就 得 到 一 个 圆 环 ， 
圆 环 正好 覆盖 轮 齿 部 分 。 采 样 环 见 图 3-15e。 

一 旦 有 了 采样 环 ， 把 它 与 原始 图 像 进行 逻辑 “与 ”运算 ,生成 只 有 轮 齿 的 图 像 ， 如 图 3-15f。 
这 时 已 经 能 够 看 到 轮 齿 之 间 有 间隙 ， 但 还 没有 标记 出 来 。 通过 结构 元 tip_spacing 对 轮 齿 图 像 进 
行 膨 胀 ， 生 成 实 线 圆 环 图 像 即 图 3-15g。 其 中 在 轮 齿 有 缺损 的 地 方 ， 实 线 环 上 有 缺口 。 用 采样 
环 减 去 这 个 实 线 环 得 到 只 有 缺口 的 图 像 ， 再 用 结构 元 defect_cue 进 行 膨胀 处 理 ， 在 屏 上 显示 出 








”Sternberg 用 环形 结构 元 检测 疮 轮 上 加 孔 的 中 心 。 如 果 你 的 系统 只 有 加 盘 形 和 方形 结构 元 ， 
你 怎么 来 检测 这 些 圆 孔 的 中 心 ? 





假设 对 一 幅 卫星 图 像 进行 阔 值 处 理 ， 有 水 的 区 域 像素 值 为 1。 但 是 ， 河 流 上 面 的 桥 对 应 的 
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Seekers 它们 把 河流 分 成 不 同 的 区 域 。(a) 如 何 把 表示 桥 的 像素 区 域 恢复 成 水 区 
IR? (b) 作为 独立 的 目标 物体 ， 如 何 检测 这 些 细 线 形 的 桥 ? 


CXI E 


a) 原始 图 像 B b) B1=Behole ring 





c) B2 = B1®hole_mask d) B3 = B OR B2 





e) B7 (参见 课本 ) f) B8=B AND B7 





g) B9 = B8@tip_spacing h) RESULT = ((B7 - B9) 
@defect_cue)OR B9 


图 3-15 齿轮 检查 过 程 (经 Academic Press 人 允许， 由 Stanley R. Sternberg 授 权 ) 


二 值 图 像 形态 运算 ， 也 可 用 来 抽取 目标 的 基 元 特征 ， 这 些 基 元 特征 可 用 于 目标 识别 。 例 
如 ， 二 维 物体 的 角 在 形状 识别 时 是 很 好 的 基 元 特征 。 如 采 带 尖 角 的 目标 用 圆 盘 形 结构 元 进行 


开 运 算 ， 这些 角 会 被 切 掉 ， a Son 如 果 
re 只 有 和 角 被 
保留 下 来 ， 并 用 于 结 afer het mi eS. 
统 中 ， ich cael ei 
a) 原 图 ) 开 运 算 结果 c) 


标识 别 的 基 元 特征 。 
图 3-16 用 形态 运算 抽取 形状 基 元 特征 
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3.5.4 条 件 膨胀 

通过 二 值 形态 运算 ， 可 以 确定 二 值 图 像 中 满足 一 定形 状 和 大 小 约束 的 组 成 成 分 。 我 们 能 
够 推导 出 一 个 结构 元 ， 通 过 它 去 掉 图 像 中 不 满足 约束 的 成 分 ， 只 保留 一 些 满足 约束 的 值 为 1 的 
像素 。 但 实际 上 我 们 想 要 的 是 整体 成 分 ， 而 不 只 是 腐蚀 之 后 保留 下 来 的 几 个 像素 。 条 件 膨胀 
运算 可 以 解决 这 个 问题 。 


定义 20 ”条件 膨胀 (conditional dilation): 已 知 一 幅 原 始 二 值 图 像 B， 处 理 过 的 二 值 
图 像 C， 及 结构 元 $， 设 Co= C，Cu=(Co_i@S)mB。S 对 C 关 于 了 的 条 件 膨胀 定义 为 : 


COIS = Cn (3-6) 

其 中 下 标 m 是 满足 C= C ,的 最 小 下 标 。 

这 个 定义 是 为 了 对 有 限 数字 图 像 中 的 点 集 进行 分 离 。 也 就 是 说 ， 用 结构 元 S 对 集合 C=Co 进 
行 多 次 脱 胀 ， 每 一 次 都 得 到 减少 了 的 像素 子 集 ， 这 些 像素 在 原始 二 值 图 像 中 的 值 为 1。 图 3-17 
显示 的 是 条 件 膨胀 运算 的 结果 。 图 中 ， 二 值 图 像 B 通 过 结构 元 V 进 行 腐蚀 运算 ， 选 择 出 包含 3 
个 像素 长 的 垂直 边 的 成 分 。 选 出 成 分 中 的 两 个 ， 表 示 在 结果 图 像 C 中 。 为 了 看 到 这 两 个 的 整体 
成 分 D 对 C 关 于 原 图 B 进 行 条 件 膨胀 ， 于 是 产生 了 图 3-17e 的 结果 。 














BEE M 
Hy E as 
HH oo 于 
44 ooo Leer 
Ht Tee 
H+} E aan 
H Eo Oo 
HH Coo cn 
+44 E arn 
AH EEE 

COTE 





图 3-17 条 件 膨胀 运算 
3.6 区 域 特征 


一 旦 区 分 出 了 区 域 ， 区 域 特征 就 变 成 执行 决策 任务 如 识别 、 检 查 等 高 级 过 程 的 输入 。 许 
多 图 像 处 理 包 中 具有 计算 区 域 特征 集 的 算 子 。 特 征 一 般 包 括 几何 特征 (如 区 域 面积 、 中 心 和 
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端点 )、 形 状 特征 (如 环形 、 长 条 形 的 测度 值 )、 亮 度 特征 (如 平均 灰 度 ) 以 及 各 种 纹理 统计 
特征 等 。 本 节 定 义 最 常用 的 几何 和 形状 特征 ， 并 解释 如 何 用 它们 进行 决策 。 第 7 意图 像 纹理 部 
分 包含 了 灰 度 特征 。 

在 下 面 的 讨论 中 ， 我 们 把 区 域 中 的 像素 集 表示 为 R。 最 简单 的 几何 特征 是 区 域 面积 A 和 区 
域 的 中 心 (7, zc)。 假 设 像素 形状 是 正方 形 的 ， 这 些 特征 定义 如 下 : 


面积 : es 5 i jy) 
(r,c)ER 
这 意味 着 面积 只 是 区 域 R 中 的 像素 的 个 数 。 
中 心 : 
F= 2r (3-8) 
(rc)eR 
=i L < (3-9) 


(roeR 


POF, 5) 即 区 域 R 中 像素 的 平均 位 置 。 注 意 即 使 每 个 像素 坐标 [7， cJeR 是 一 对 整数 ，(7, 5c) 一般 
也 不 是 一 对 整数 。 对 于 中 心 位 置 来 说 ， 精 度 取 1/10 像 素 是 比较 合适 的 。 


习题 3.9 区 域 特征 应 用 


前 面 提 到 的 齿轮 例子 ， 只 用 到 形态 运算 和 逻辑 运算 ， 这 些 运算 只 有 在 专用 机 器 上 才能 快 
速 执行 。 假 设 我 们 要 寻找 此 与 齿 之 间 超 过 正常 值 的 大 缝隙 ， 由 于 在 通用 机 上 形态 运算 的 执行 
速度 很 慢 ， 那 么 怎样 做 才能 使 执行 检测 时 用 到 的 形态 运算 最 少 ? 


KIRAR (perimeter) P 的 长 度 是 另 一 个 全 局 性 特征 。 内 部 无 孔 区 域 的 周 界 ， 简单 定义 为 
它 内 部 边界 像素 的 集合 。 一 个 区 域 的 像素 如 果 具 有 该 区 域外 的 邻 点 ， 则 这 个 像素 是 一 个 边界 
像素 。 如 果 基 于 8- 连 通 来 判断 区 域内 像素 是 否 与 区 域外 的 像素 连接 ， 周 界 像素 的 集合 就 是 4- 连 
通 的 。 如 果 基 于 4- 连 通 性 来 判断 区 域内 像素 是 否 与 区 域外 的 像素 连接 ， 周 界 像素 的 集合 就 是 8- 
连通 的 。 这 样 就 出 现 关于 区 域 R 周 界 的 两 种 定义 方式 : 4- 连 通 周 界 P 和 8- 连 通 周 界 P，。 

周 界 : 





P, ={(r, c)e RIN,(r, c) — R + O} 
P; = {(r, c)ERIN,(r, c) — R + $} 


习题 3.10 根据 周 界 产生 区 域 


只 知道 区 域 的 周 界 ， 试 设计 算法 ， 生 成 无 孔 区 域 的 二 值 图 像 。 


压根 据 周 界 计算 面积 
只 知道 区 域 的 周 界 ， 试 设计 算法 ， 计 算 无 孔 区 域 的 面积 。 如 果 不 重 构 二 值 图 像 ， 有 可 能 
计算 出 区 域 的 面积 吗 ? 


为 了 算出 周 界 P 的 长 度 IPl， P 中 的 像素 必须 按 顺 序 排 成 一 个 序列 P=<(r， Co), = s (Mets cei) >, 
序列 中 前 后 两 个 像素 是 相 邻 的 ， 包括 第 一 个 像素 和 最 后 一 个 像素 在 内 。 那 么 周 长 (perimeter 
length) IPl 定 义 为 : 








[74 | 


[75 | 
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周 长 : 
[P| = {kl (rea, Chi) E€ Na(re, ce)}| 


+ V2I{k (reais Cet) € Na (re, Ck) — Na(re, cx)}| 


其 中 计算 上 + 1 的 模 是 K， 即 像素 序列 的 长 度 。 这 样 在 周 界 的 竖 直 和 水 平方 向 的 两 相 邻 像素 使 
总 数 加 1， 而 对 角 线 上 的 两 相 邻 像素 使 总 数 加 1.4 左 右 。 
有 了 区 域 面 积 A 和 周 界 P， 区 域 圆 度 的 一 般 度 量 方法 是 用 周 长 的 平方 除 以 面积 。 
圆 度 (1): 


(3-10) 


a= FË 
A à 
对 于 数字 形状 ，IPIV4 的 最 小 值 不 适合 数字 化 圆 形 ， 虽 然 它 适 合 连续 的 平面 形状 。 对 于 数 
字 八 边 形 或 菱形 ， 不 管 是 按 4- 连 通 边 界 像素 数 计算 还 是 按 边界 长 度 计 算 ， 如 果 是 紧 直 或 水 平 
方向 移动 ， 结 果 要 加 1; 如 果 是 沿 对 角 线 方向 移动 ， 结 果 要 加 V2 。 为 了 解决 这 个 问题 ， 
Haralick 于 1974 年 提出 了 另 一 种 圆 度 的 度量 方法 。 
圆 度 (2): 


(3-11) 


C2 = 一 (3-12) 


OR 
其 中 心 和 ax 分 别 为 形状 的 中 心 到 边界 距离 的 均值 和 标准 差 ， 计 算 公式 如 下 : 
平均 径 向 距离 : 


K-1 


1 
HR = Kol — F, (3-13) 
径 向 距离 的 标准 差 : 
1 K-1 1/2 
ar = | > X lr ce) — FOI — ur? (3-14) 
K k=0 


其 中 像素 集 (roc), k=0, … ,二 1 位 于 区 域 的 周 界 P 上 。 当 数字 化 形状 变 得 更 圆 时 ， 圆 度 
C; 单 调 上 升 ， 无 论 是 数字 形状 还 是 连续 形状 ， 结 果 都 是 一 样 的 。 

图 3-18 给 出 区 域 的 一 些 在 简单 标记 图 像 上 的 基本 特征 ， 标 记 图 像 有 三 个 区 域 : 一 个 椭圆 、 
一 个 矩形 和 一 个 3 x 3 的 正方 形 。 






—— 

假设 你 有 一 些 二 维 形状 ， 如 三 角形 、 和 矩形 、 八 边 形 、 圆 形 和 椭圆 形 。 请 设计 识别 这 些 形 
状 的 策略 。 可 以 利用 数学 形态 运算 和 目前 学 过 的 特征 。 

边界 框 和 极点 

常常 需要 粗略 地 知道 一 个 区 域 位 于 一 幅 图 像 的 什么 位 置 。 这 时 要 用 到 区 域 的 边界 框 
(bounding box) 这 个 概念 。 边 界 框 是 一 个 矩形 ， 由 水 平和 竖 直 四 条 边 把 整个 区 域 围 起 来 ， 
并 与 区 域 的 最 上 、 最 下 、 最 左 和 最 右 点 相 接 。 如 图 3-19 所 示 ， 一 个 区 域 可 以 有 多 至 8 个 不 同 
的 极点 : 右边 最 上 、 上 边 最 右 、 下 边 最 右 、 右 边 最 下 、 左 边 最 下 、 下 边 最 左 和 上 边 最 左 点 。 
每 个 极点 都 有 一 个 极 坐标 值 ， 要 么 是 行 坐标 值 ， 要 么 是 列 坐标 值 。 每 个 极点 都 在 区 域 的 边界 
框 上 。 
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0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 
2 2 2 2 0 0 0 0 0 1 1 l 1 ] 1 0 
2 2 2 2 0 0 0 0 1 1 1 1 l 1 1 ] 
2 2 2 2 0 0 0 0 1 I 1 1 1 1 1 1 
2 2 2 2 0 0 0 0 1 1 1 1 1 1 1 1 
2 2 2 2 0 0 0 0 0 1 1 1 1 l 1 0 
2 2 2 2 0 0 0 0 0 0 1 1 1 1 0 0 
2 2 2 2 0 0 0 0 0 0 0 0 0 0 0 0 
2 2 2 2 0 0 0 0 0 0 0 0 0 0 0 0 
2 2 2 2 0 0 3 3 3 0 0 0 0 0 0 0 
2 2 2 2 0 0 3 3 3 0 0 0 0 0 0 0 
2 2 2 2 0 0 3 3 3 0 0 0 0 0 0 0 
2 2 2 2 0 0 0 0 0 0 0 0 0 0 0 0 


a) 连通 成 分 标号 图 





区 域 KRÈ 区 域 中 心 区 域 中 心 区 域 区 域 区 域 FISY 半径 
标记 ”而 积 所 在 的 行 所 在 的 列 周 长 圆 度 1 圆 度 2 ”均值 方差 





1 44 6 11.5 21.2 10.2 15.4 3.33 0.05 
2 48 9 1.5 28 16.3 2.5 3.80 2.28 
3 9 13 7 8 7.1 5.8 1.2 0.04 





b) 一 个 区 域 的 特征 
图 3-18 区 域 的 基本 特征 


左边 最 上 点 右边 最 上 点 


上 边 最 左 点 
下 边 最 左 点 上 边 最 布点 


下 边 最 右 点 





左边 最 下 点 右边 最 下 点 


图 3-19 区 域 的 8 个 极点 以 及 包围 该 区 域 的 正常 取向 边界 框 。 虚 线 把 两 个 相对 的 极点 连 起 来 ， 
形成 形状 的 极点 轴线 

极点 以 相对 位 置 成 对 出 现 : 左边 最 上 点 对 右边 最 下 点 ， 右 边 最 上 点 对 左边 最 下 点 ， 上 边 
最 布点 对 下 边 最 左 点 ， 下 边 最 右 点 对 上 边 最 左 点 。 每 对 极点 确定 一 条 轴线 。 可 用 的 轴线 特征 
包括 轴线 的 长 度 与 方向 。 由 于 极点 是 空间 数字 化 或 量化 处 理 的 结果 ， 用 标准 欧 儿 里 德 距离 公 
式 计算 出 的 结果 稍微 偏 低 一 点 (例如 ， 计 算 水 平方 向 两 紧邻 像素 之 间 的 长 度 。 从 左边 像素 的 
左边 到 右边 像素 的 右边 之 间 是 两 个 像素 的 长 度 ， 但 两 像素 中 心 之 间 的 距离 只 是 1 个 像素 。) 解 
决 的 办 法 是 在 欧 几 里 德 距离 公式 上 加 上 一 个 微小 增 量 。 增 量 的 大 小 取决 于 轴线 的 方向 角 96， 具 
体 如 下 : 








w 
w 
H 
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[二 可 : | < 45° 
00) = gs ase (3-15) 


[sin 8] 





加 上 这 个 增 量 后 ,极点 (rc) BUR (roc) 之 间 的 轴线 长 度 如 下 : 
极 轴 长 度 : 





D = V(r — r1)? + (@—a)? + Q0) (3-16) 


Z BEM W FA TRR RATER. KRI E Ee (spatial moment) 有 三 个 ， 表 
IRA lro UAA 分 别 定义 如 下 : 


二 阶 行 矩 : | 
tm (3-17) 
=BiEA#E: ) 
per Dy DC (3-18) 
二 阶 列 矩 : i 
Mec = 2 一 可 (3-19) 


HM, BETA Via ST FT RHE Mec BR AN iS PULLER BS PE, Bs ABS PY 4B BE 
它们 不 随 二 维 形状 的 平移 和 尺度 变化 而 变化 ， 因 此 常用 于 描述 简单 的 形状 。 

形状 区 域 情 况 下 二 阶 空间 先 的 数值 和 含义 ， 与 二 维 概论 分 布 协 方差 矩阵 的 数值 和 含义 类 
似 。 如 果 区 域 是 一 个 椭圆 ， 就 可 以 看 出 二 阶 空间 矩 的 代数 含义 。 

设 区 域 R 是 一 个 椭圆 ， 其 中 心 位 于 原点 ， 则 R 可 被 表达 为 :; 


R= {(r, c) | dr? + 2erc + fe? < 1} (3-20) 
PAT MAB. e, PJO E AZ AEE, KARP: 
de 1 Lec “he l 
(¢ s) 4(Mrr Hcc 一 u2.) (i Herr (3 21) 


由 于 系数 4、e、Jj 确 定 了 椭圆 主 次 轴 的 长 度 及 其 方向 ， 这 种 关系 意味 着 二 阶 矩 凡 、 作 和 人 
也 确定 椭圆 主 次 轴 的 长 度 及 其 方向 。 椭 圆 常常 是 圆 形 目标 的 成 像 结 果 ， 也 是 对 其 他 长 条 形 目 
标的 粗略 近似 。 

椭圆 两 轴 的 长 度 与 方向 * ”为 了 根据 二 阶 矩 计算 椭圆 主 次 轴 的 长 度 及 其 方向 ， 我 们 必须 考 
虑 下 面 4 种 情况 〈 注 意 下 面 的 方向 角 ， 是 从 纵 轴 沿 逆 时 针 转 动 的 方向 ): 

L. He = 0, U, > He 

主轴 方向 角 为 -90"， 主 轴 长 度 为 444”; 次 轴 方 向 角 为 0"， 次 轴 长 度 为 4472。 

2. Ure = Q, Hp, S Mec 

主轴 方向 角 为 0"， 主 轴 长 度 为 414?; 次 轴 方 向 角 为 -90"， 次 轴 长 度 为 4u. 

3. Ure £O, Hs, S Hec 

主轴 方向 角 为 : 





-} 一 2MUre 
tan 5 VE 
Urr 一 Hee + [Curr 一 Hec) + 412.] 
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其 长 度 为 : avin 
{s (sar boc + [ (Her = meo? + au)" 


次 轴 方 向 角 为 90" ， 其 长 度 为 


[8 T 十 He 一 [Curr ~ Mee)” 十 4u2] "2)] 1/2 


4. Hre + 0, Hr? Hee 

主轴 方向 角 为 : ip 

[fice + ber + [Clee = Here)? + 43.) 
一 2Ure 





tan` 


其 长 度 为 : a 
[8 {iire + pee + [Curr — Meo)? + 4u]? Y 


次 轴 方 向 角 为 90*， 其 长 度 为 
[s fur 十 Hec 一 [Grr 一 Mec)” + 4u;.| "2y 2 


最 佳 轴 * 一 些 图 像 区 域 (目标 ) 具有 自然 轴 ， 例如 一 只 铅笔 、 一 把 锤子 或 字符 “1”、“/”、 
“一 ”等 。 景 佳 轴 (Best Axis) 是 最 小 的 二 阶 矩 所 对 应 的 轴线 。 模 仿 机 械 学 中 的 术语 ， 称 它 为 
最 小 惯性 轴 ， 也 就 是 说 像素 绕 该 轴 旋 转 时 需要 的 能 量 最 小 。 对 于 一 个 圆 盘 ， 所 有 轴线 具有 相 
等 的 最 小 《和 最 大 ) 惯性 。 众所周知， 最 小 惯性 轴 一 定 通过 像素 集合 (像素 具有 单位 质量 ) 
的 中 心 (元 2)， 这 点 可 以 保证 。 首 先 计算 像素 点 集 关 于 任意 轴线 的 二 阶 矩 ， 然 后 寻找 使 二 阶 卸 
最 小 的 轴线 。 计 算出 关于 这 些 轴 线 的 二 阶 矩 ， 也 许 能 提供 一 组 比较 好 的 特征 用 于 目标 识别 ， 
下 一 章 我 们 会 看 到 这 一 点 。 例 如 ， 字 符 “I” 关 于 过 中 心 垂 直 轴 线 的 二 阶 矩 是 很 小 的 ， 但 字符 
“A 和 “一 ”关于 这 个 轴线 的 二 阶 矩 则 不 小 。 

图 3-20 显 示 一 些 像素 点 以 及 与 横 ( 行 ) 轴 成 a 角 的 轴线 。 该 轴线 的 垂 线 与 横 轴 夹 角 为 = 
a+ 90。 为 了 计算 点 集 关 于 该 轴线 的 二 阶 矩 ， 需 要 求 所 有 像素 点 到 该 轴线 的 距离 4 的 平方 和 ， 
再 除 以 像素 数 进行 规范 化 处 理 ， 就 得 到 不 随 像 素数 变化 而 显著 变化 的 特征 ， 这 些 像 素 确 定 了 
日 标 区 域 的 形状 。 注 意 ， 由 于 我 们 是 求 妈 的 和 ， 如 果 a、 有 加 上 或 减 去 r， 将 不 改变 二 阶 矩 的 大 
小 。 公式 (3-22) 给 出 了 二 阶 矩 的 计算 公式 ,“。” 表 示 向 量 的 标量 积 ， 即 向 量 V 投 影 到 方向 
为 有 的 单位 向 量 上 ， 产 生 的 投影 长 度 为 d。 任 何 轴线 可 以 用 F、z 和 wo 三 个 参数 确定 。 


二 阶 轴 和 矩 *: 
Hrca = 1 5 d? 


(roeR 


一 二 > (V o (cos B, sin B))” 


(roeR 


= a > ( — F) cos B + (c — @) sin B)* 
(r,cjER (3-22) 
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其 中 B= w+ 7/2. 

利用 上 面 的 公式 (3-22) 能 够 算出 几 个 矩 ， 从 而 得 到 点 集 的 形状 信息 。 例如 利用 关于 垂 
直 轴 线 、 水 平 轴 线 和 对 角 轴 线 的 和 矩 ， 可 对 标 c 
准 字 体 的 字符 分 类 。 最 小 (最 大 ) 惯性 是 点 
集 的 不 变 特征 ， 并 随 点 集 进行 平移 和 旋转 。 
使 此。 a 最 小 可 得 到 最 小 惯性 轴 。 假 设 最 佳 轴 
必须 通过 中 心 ， 那 么 只 需 将 公式 (3-22) 对 
0Q 求 导 ， 就 可 以 得 到 最 佳 值 &。 


习题 3.13 编程 计算 点 集 的 特征 


编写 程序 模块 ， 或 C++ 类 ， 对 二 维 点 包 
进行 管理 ， 并 提供 下 面 的 功能 。 包 与 集 的 不 
同 之 处 在 于 包 人 允许 对 点 进行 复制 。 

。 构 造 一 个 二 维 点 [nc] 的 空 包 ; 

。 把 点 [nc] 加 进 包 里 ; 

.计算 当前 点 包 的 中 心 ; 图 3-20 计算 每 个 像素 到 轴线 距离 的 平方 和 ， 得 到 

。 计算 当 前 点 包 的 行 矩 和 列 矩 ; 一 阶 轴 算 

。 计 算 边 界 框 ; 

。 计 算 最 佳 轴 和 最 差 轴 ， 及 关于 最 佳 轴 和 最 差 轴 的 二 阶 矩 。 


O E: | 


在 前 面 的 习题 中 已 经 编写 了 特征 抽取 模块 ， 对 这 个 模块 进行 改进 ， 计 算 关 于 过 中 心 点 的 
水 平 轴线 、 垂 直 轴 线 和 对 角 轴 线 的 二 阶 矩 。 这 样 对 任何 点 包 将 得 到 5 个 不 同 的 二 阶 矩 。 建 立 大 
小 为 20 x 20 的 二 值 图 像 集 ， 测 试 数据 从 数字 0 到 9， 或 利用 已 有 的 数据 。 编 写 程序 扫描 某 个 数 
字 图 像 并 计算 5 个 矩 。 研 究 是 否 能 用 这 5 个 矩 识别 出 输入 的 数字 。 


具有 最 小 二 阶 矩 的 轴 *: 





2 > 一 PP(Cc 一 5 


WE C- He=O 


bike ATER ODE n 
i-i)r -i) -i Ce-a- e) 


2 Ure 


Mrr 一 ce (3-23) 


c% 有 极 小 值 和 极 大 值 两 种 极 值 ， 二 者 相差 90"。 在 上 面 关 于 椭圆 长 短 轴 的 讨论 中 ， 我 们 已 
经 知道 了 区 分 这 两 个 轴线 的 方法 。 实 际 上 根据 这 些 矩 的 含义 ， 我 们 能 够 通过 上 面 的 公式 计算 
近似 点 集 的 椭圆 。 对 于 高 度 对 称 的 形状 如 正方 形 、 圆 等 ， 公 式 (3-23) 中 的 分 母 将 为 0， 这 时 
就 要 用 椭圆 分 析 方 法 。 
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PEET 
对 公式 (3-22) 求 导 ， 看 看 如 何 得 到 公式 (3-23) 所 示 的 最 佳 轴 (最 差 轴 )。 
| 证 明 最 佳 轴 通 过 中 心 。 ih i toi 


证 明 最 小 惯性 轴 一 定 通 过 中 心 。 请 参考 本 章 末 的 文献 ， 或 其 他 关于 统计 回归 、 机 械 学 的 
参考 资料 ， 或 者 你 自己 证 明 。 


3.7 区 域 邻接 图 

除了 单个 区 域 的 特征 ， 不 同 区域 之 间 的 关系 在 图 像 分 析 中 也 是 有 用 的 。 一 种 最 简单 但 最 
有 用 的 关系 是 区 域 邻接 (region adjacency)。 如 果 一 个 区 域 的 像素 与 另 一 个 区 域 的 像素 相 邻 ， 
则 称 这 两 个 区 域 是 邻接 的 。 在 二 值 图 像 中 ， 只 有 两 种 区 域 : 前 景区 域 和 背景 区 域 。 所 有 的 前 
景区 域 是 和 背景 区 域 邻接 的 ， 而 前 景区 域 之 间 互 不 邻接 。 如 果 背 景 是 一 个 单 连 通 区 域 ， 则 不 
需要 计算 下 去 。 如 果 前 景区 域内 部 有 孔 ， 而 这 些 孔 属于 背景 区 域 ， 这 时 利用 连通 成 分 标记 算 
法 对 前 景 像素 进行 标记 ， 生 成 标记 图 像 ， 其 中 每 个 前 景区 域 具有 一 个 数字 标号 ， 而 所 有 背景 
区 域 的 标号 为 0。 也 可 以 对 背景 进行 连通 成 分 标记 ， 赋 给 每 个 背景 区 域 一 个 标号 。 对 比较 大 、 
从 图 像 左上 角 开 始 的 区 域 ， 可 进行 特殊 标记 如 标记 为 0。 其 他 的 背景 区 域 就 是 前 景区 域 中 的 孔 。 
有 了 前 景 标 号 图 和 背景 标号 图 ， 就 能 确定 哪些 背景 区 域 与 每 个 前 景区 域 邻接 ， 或 者 确定 哪些 
前 景区 域 与 背景 邻接 。 记 录 区 域 邻接 的 结构 图 称 为 区 域 邻 接 图 (region adjacency graph)。 可 
用 它 来 记录 二 值 图 像 中 前 景区 域 与 背景 区 域 的 邻接 关系 ， 以 及 在 图 像 分 割 时 记录 所 有 的 邻接 
关系 。 


定义 21 ”区 域 邻接 图 用 节点 表示 图 像 区 域 ， 如 果 两 个 区 域 是 邻接 的 ， 则 用 一 条 边缘 













线 连 接 两 节点 。 ofojolojojojojo oTo] 
图 3-21 是 二 值 图 像 前 景 和 背景 区 域 邻接 图 的 例 。 上 二 上 | 上 to ta ta to 
子 。 前 景区 域 按 惯例 用 正 整数 标记 。 从 图 像 左上 角 | 


开始 的 大 背景 区 域 标记 为 0， 孔 区 域 用 负 整数 标 记 。 
构造 区 域 邻接 图 的 算法 是 比较 简单 的 。 处 理 图 

像 ， 着 眼 于 当前 行 及 上 面 一 行 ， 检 测 具 有 不 同 标 号 

的 水 平 邻 接 区 和 垂直 邻接 区 ; 对 于 8- 邻 接 ， 还 要 检 


测 对 角 邻 接 区 。 如 果 检 测 到 新 的 邻接 区 ， 在 要 构造 a) 前 景 与 背景 区 域 的 标号 图 
的 区 域 邻 接 图 数据 结构 中 添加 新 的 边 。 算 法 的 效率 
受到 两 个 问题 的 影响 。 第 一 个 是 空间 问题 。 一 幅 图 RE ta) 


像 可 能 有 几 万 个 标号 ， 要 在 内 存 中 同时 保持 整个 数 


据 结构 存在 ， 这 样 的 算法 是 不 可 行 的 ， 或 者 至 少 在 

内 存 页 面 环境 中 是 不 可 行 的 。 第 二 个 是 执行 时 间 问 mm O 
题 。 当 逐个 像素 扫描 图 像 时 ， 会 反复 检测 到 同样 的 

邻 域 ( 即 同样 的 两 个 区 域 标号 )。 我 们 希望 把 邻接 信 MP 


息 加 入 数据 结构 的 频 度 越 少 越 好 。 习 题 3.17 中 要 谈 
到 这 些 问 题 。 b) 区 域 邻接 图 
图 3-21 标号 图 和 区 域 邻接 图 








T 构造 RAG 的 有 效 性 
设计 数据 结构 ， 在 构造 区 域 邻接 图 时 记录 邻接 信息 。 对 于 任意 一 幅 标号 图 ， 写 出 构造 区 
域 邻接 图 的 算法 ， 并 且 要 使 数据 结构 的 参数 个 数 最 少 。 讨 论 怎 样 在 永久 存储 器 上 (磁盘 ) 保 
[82] 存 最 终 的 RAG， 以 及 怎样 处 理由 于 RAG 太 大 而 在 构造 期 间 受 内 存 限制 的 问题 。 


3.8 REREN 

灰 度 级 图 像 通过 阔 值 运算 ， 可 以 转化 为 二 值 图 像 。 阔 值 运算 把 感 兴趣 的 目标 像素 作为 前 
景 像素 ， 其 余部 分 作为 背景 像素 。 如 果 图 像 的 灰 度 值 分 布 已 知 ， 可 选择 合适 的 灰 度 值 作为 阔 
值 ， 并 据 此 把 图 像 像素 分 成 组 。 最 简单 的 情况 是 选用 单 阔 值 +， 灰 度 值 大 于 等 于 /的 所 有 像素 作 
为 前 景 像素 ， 把 其 余 像 素 作为 背景 像素 。 这 种 阔 值 运算 称 为 上 阔 值 化 (threshold above), JE 
外 还 有 其 他 多 种 算法 ， 如 下 阅 值 化 (threshold below)， 即 把 灰 度 值 小 于 等 于 /的 所 有 像素 作为 
前 景 像 素 ; 内 阅 值 化 (threshold inside )， 即 确定 一 个 较 小 的 闪 值 和 一 个 较 大 的 阔 值 ， 把 灰 度 
值 界 于 二 者 之 间 的 像素 作为 前 景 像素 ; 外 阅 值 化 (threshold outside)， 与 内 阔 值 化 相反 ， 把 灰 
度 值 界 于 小 阔 值 与 大 阔 值 之 外 的 像素 作为 前 景 像素 。 这 些 都 是 简单 的 阔 值 运算 ， 它 们 最 主要 
的 问题 是 如 何 选择 合适 的 阔 值 。 
3.8.1 直方 图 阅 值 选择 

国 值 可 以 通过 软件 由 用 户 以 交互 的 方式 进行 选择 ， 但 对 于 自动 图 像 分 析 与 处 理 ， 希 望 阔 

[83] ERREI A ZEIT. EREE EAA RAIA A (histogram). 
定义 22 直方 图 ， 灰 度 图 像 I 的 直方 图 h 定 义 为 : 
h(m) = |{(r, Or, c) = m} 
其 中 m 的 取 值 范围 是 整个 灰 度 级 值 。 


图 3-22 显 示 带 伤痕 的 樱桃 及 其 直方 图 。 直 方 图 有 两 个 明显 的 模式 ， 表 示 樱 桃 上 坏 了 的 部 
分 和 没 坏 的 部 分 。 





a) 带 伤痕 的 樱桃 图 b) 樱桃 图 的 直方 图 


图 3-22 带 伤痕 的 樱桃 的 直方 图 ， 显 示 两 个 模式 (Patchrawat Uthaisomhut 授 权 ) 
直方 图 计算 可 用 数组 数据 结构 和 简单 的 程序 实现 。 设 本 是 向 量 数组 ， 维 数 从 0 到 MaxVal， 
其 中 0 是 最 小 灰 度 级 值 ，MaxVal 是 最 大 灰 度 级 值 。 设 I 是 二 维 图 像 数组 ， 行 号 从 0 到 MaxRow， 
列 号 从 0 到 MaxCol， 这 和 前 面 的 一 节 一 样 。 计 算 直 方 图 的 程序 代码 如 下 ; 
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算法 3.7 计算 灰 度 图 像 | 的 直方 图 H 
procedure histogram(I, H); 
{ 
N 初 始 化 直方 图 数组 的 各 元 素 为 0。 
for i :=0 to MaxVal 
H[i] :=0; 
N 计 算 累 加 值 。 
for L :=0 to MaxRow 
for P :=0 to MaxCol 
{ 
grayval :=I[r,c]; 
H[grayval] : = H[grayval] + 1; 
E 








| J 

直方 图 计算 程序 中 ,假设 每 个 可 能 的 图 像 灰 度 级 对 应 直方 图 的 一 个 箱 格 。 当 存在 很 多 可 
能 的 灰 度 级 时 ， 为 了 显示 直方 图 ， 希 望 将 几 个 灰 度 级 组 合 起 来 ， 对 应 一 个 箱 格 。 对 前 面 的 程 
序 稍 加 修改 ， 就 可 以 算出 该 箱 格 中 的 像素 个 数 ， 它 是 灰 度 级 的 国 数 。 如 果 用 箱 格 大 小 表示 每 
个 箱 格 包含 的 灰 度 级 数 ， 那 么 对 灰 度 值 与 箱 格 大 小 之 比 grayval/binsize 取 整 后 就 得 到 正确 的 箱 
格 下 标 。 

已 知 直 方 图 ， 可 编写 程序 自动 检测 直方 图 函数 的 波峰 和 波 谷 。 最 简单 的 情况 是 找到 一 个 阁 
值 把 图 像 分 成 黑白 两 种 像素 。 如 果 黑 白 两 
种 像素 的 分 布 是 分 开 的 ， 则 图 像 直 方 图 将 
是 双 模 式 的， 其 中 一 种 模式 对 应 黑色 像素 ， 
另 一 种 模式 对 应 白色 像素 。 由 于 像素 的 分 
布 几 乎 没有 重合 ， 可 以 在 两 模式 之 间 的 谷 
底 上 方便 地 选择 病 值 ， 如 图 3-23a 所 示 ; 如 
果 黑 白 像 素 的 分 布 有 很 多 重合 ， 选 择 阀 值 
就 比较 困难 ， 因 为 随 着 两 种 分 布 融合 到 一 
起 ， 谷 底 就 开始 消失 ， 如 图 3-23b 所 示 。 aera ra 
3.8.2 ”自动 阅 值 处 理 ，Otsu 方 法 * ia R323 ERRELE P 

BOE A BA E a tE HL BP A ob ae É 
的 方法 ， 这 里 主要 讨论 Otsu 方 法 。 冰 值 运算 把 所 有 像素 分 成 两 组 ，Otsu 方 法 通过 使 两 组 像素 
的 组 内 方差 最 小 来 确定 阔 值 。 首 先 定义 直方 图 函数 为 一 个 概率 函数 P， 其 中 P(0), …, P(D) 表 示 
KEHO =, /的 直方 图 概率 ，P(i) = I{(r, co)mage(r, c) = ijMIR x CI， 其 中 Rx C 是 图 像 的 空间 
区 域 。 如 果 直 方 图 是 双 模 式 的 ， 通 过 直方 图 求 阔 值 也 就 是 确定 一 个 最 好 的 阔 值 7， 利 用 这 个 闪 
值 把 直方 图 的 两 种 模式 分 开 。 根 据 阔 值 :， 可 以 确定 灰 度 值 小 于 或 等 于 1 的 像素 集 的 方差 ， 以 及 
灰 度 值 大 于 ! 的 像素 集 的 方差 。Otsu 关 于 最 佳 闪 值 的 定义 是 使 组 内 方差 的 加 权 和 最 小 的 阔 值 ， [85 | 
其 中 权 是 指 各 组 概率 。 
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滑雪 学 校 的 情形 促使 我 们 采用 组 内 方差 标准 。 事 先 对 学 员 的 能 力 进行 测试 ， 测 试 结果 的 
直方 图 是 双 模 式 的 。 由 于 存在 滑雪 高 手 和 新 手 ， 面 向 高 手 的 课程 对 其 他 人 来 说 进度 太 快 , 面 
向 新 手 的 课程 又 让 高 手 厌烦 。 为 了 解决 这 个 矛盾 ， 教 练 决定 根据 测试 得 分 把 学 员 分 成 组 间 互 
斥 、 组 内 均衡 的 两 组 。 问 题 是 用 什么 评分 标准 来 分 组 。 理 想 情 况 是 ， 各 组 自身 的 直方 图 曲线 
应 是 单 模式 的 钟 形 曲 线 ， 一 组 的 曲线 具有 较 低 的 均值 ， 另 一 组 的 曲线 具有 较 高 的 均值 。 这 指 
的 是 各 组 自身 是 均衡 的 ， 但 不 同 于 另 一 组 。 

组 内 均衡 性 的 测度 是 方差 。 均 衡 性 较 高 的 组 有 较 低 的 方差 ， 均 衡 性 较 低 的 组 有 较 高 的 方 
差 。 选 择 分 割 标准 的 方法 之 一 是 ， 确 定 合适 的 得 分 分 界线 使 组 内 方差 的 加 权 和 最 小 ， 这 个 标 
准 强调 高 的 组 内 均衡 性 ;第 二 种 方法 是 选择 合适 的 得 分 分 界线 使 两 组 均值 之 闻 的 平方 差 最 大 。 
这 个 差 与 组 间 方 差 有 关 。 这 两 个 分 割 标 准 会 产生 同样 的 得 分 分 界线 ， 因 为 组 内 方差 和 组 间 方 
差 之 和 是 一 个 常数 。 

Bo, 是 小 组 内 各 方差 的 加 权 和 ， 即 组 内 方差 ; o? (7) 是 值 小 于 或 等 于 ! 的 小 组 的 方差 ，o2() 
是 值 大 于 ! 的 小 组 的 方差 ; aO 是 值 小 于 或 等 于 1 的 小 组 的 概率 ，g;(?) 是 值 大 于 1 的 小 组 的 概 
率 ; HI(D 是 第 一 组 的 均值 ，12(D 是 第 二 组 的 均值 。 则 组 内 方差 02 定义 为 : 


oW(1) = gilt) of (t) + galt) o201) (3-24) 
其 中 
t 
at) = >> PO) 


i=l 
了 
git) = >》 PO 
i=t+l (3-25) 


wilt) = Soi POO 


i=] 


了 
m= $ i PG)/q20) 
icra (3-26) 


f(t) = li = MOP POA) 


i=l 


I 
o = > li- wal) P PO)/g2(0) 
1 一 /十 1 (3-27) 
利用 简单 的 顺序 搜索 搜索 所 有 可 能 的 ! 值 ， 确 定 使 O 最 小 的 最 佳 益 值 1。 在 许多 情况 下 ， 
可 以 简化 到 在 两 个 模式 之 间 搜 索 。 而 模式 识别 实际 上 就 是 识别 两 模式 之 间 分 界 值 。 
组 内 方差 cx(D) 与 总 方差 o 之 间 有 一 定 的 关系 ， 它 不 依赖 于 阔 值 。 总 方差 定义 为 : 
1 


o° = SiG - wy PO) 


i=l 
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其 中 


总 方差 与 组 内 方差 之 问 的 关系 可 以 简化 最 佳 阔 值 的 计算 。 通 过 重 写 o? ， 我 们 有 


il 


t 了 
o = Ñ li- mO +m- u? PO+ Y li- HD) + A — py P) 


i=l i=t+l 


= $ {i -aP +2 ~ pO -p+ HO ~ 7}PO) 


i=t 


了 
+》 {li p2(OF + 20 - uau) — u} + lult) — uP} PG) 


i=t+1 
但 是 , 
Sofi = w(t) — uIP G) = 0 
i=] 
I 
XO fi = xO) Iwalt) 一 AI]PG) = 0 
i=t+1 
由 于 


t I ` 
》 PO 以 及 qz(D = X PO 


i=l i=t+1 


qt) 


o = X li- mAP PO 二 [AD 一 AP gae) 


i=l 
I 
+ 》 li- pz) PO + l) -uP aA) 
i=t+ł 
= [qi(t) oH + gt) 020) 


+ ~u? + -u° 
(gi) [AD ~ uY + g(t) lult) — 11} (3-28) 


第 一 个 括号 项 是 组 内 方差 c* ， 是 两 组 方差 的 加 权 和 。 第 二 个 括号 项 称 为 组 间 方 差 08 ， 
是 每 组 均值 和 总 均值 之 间 的 距离 平方 的 加 权 和 。 组 间 方 差 可 进一步 简化 。 注意 总 均值 4 可 写 为 : 
KH = q(t) wit) + q(t) Halt) (3-29) 


把 公式 (3-29) 代入 公式 (3-28) 消去 4， 用 1-9i(0D) 代 替 q(0， 简 化 后 得 到 : 
o? = 0 (t) + qa (OL — at) TCD — pF 


因为 总 方差 o 不 依赖 :， 使 0,() 最 小 化 的 ! 将 是 使 组 间 方 差 5c3(D) RK. 


aa) = qi(t) {1 — qn) 一 AGO (3-30) 
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为 了 求 使 GO 最 大 的 !+， 要 知道 由 公式 (3-25) 到 公式 (3-27) 确定 的 参数 大 小 。 而 这 不 
需要 对 每 个 都 算 一 遍 。 为 + 计算 的 值 与 为 ! + 1 计算 的 值 之 间 有 一 定 的 关系 ， 从 公式 (3-25) 可 
直接 推出 这 个 迭代 关系 

gat +1) =qi(t)+ Pt +)) (3-31) 


初始 值 取 为 q1(1) = PA). 
从 公式 (3-26) 可 推出 迭代 关系 
q(t) wi(t) + (t+ DP(+1) 


uwi(t+1)= ait +1) (3-32) 
初始 值 取 为 4.(0) = 0。 最 后 从 公式 (3-29), 我们 有 
jo(tt+1)= 人 一 qt 二 DA 二 DT (3-33) 


p 
4 


Otsu 的 自动 阔 值 寻找 器 假设 灰 度 值 呈 双 模 aa 
模式 ， 算 出 的 结果 是 无 用 的 。 图 3-24 显 示 oe 


1—qi(t+1) 

只 有 当 图 像 整 体 灰 度 分 布 满足 假设 的 条 件 下 ， 自 动 寻找 阔 值 的 算法 才能 很 好 地 工作 。 
式 分 布 。 如 果 图 像 近似 满足 这 个 约束 ， 算 
法 将 能 很 好 地 工作 。 如 果 图 像 根 本 不 是 双 

的 是 用 Otsu 算 子 处 理 a 图 中 积木 玩具 的 灰 a) 原 图 b) 小 于 阔 值 93 的 像素 © 大 于 阔 值 93 的 像素 
藻 围 且 0-~ = 

度 图 像 。 图 像 的 灰 度 范围 是 0~255， 算 子 图 3-24 灰 度 图 像 以 及 由 Otsu 自 动 阔 值 算 子 得 到 的 小 于 





返回 的 阔 值 是 93。 小 于 和 大 于 阔 值 的 像 和 大 于 阔 值 93 的 像素 (显示 为 白色 ) ( 原 图 由 
素 分 别 显 示 在 b 和 c 中 。 图 像 中 只 有 非常 黑 John Ilinguorth 和 Ata Etamad 提 供 ) 
的 区 域 才 被 分 割 出 来 。 


如 有 果 图 像 的 灰 度 值 与 在 图 像 中 的 位 置 密切 相关 ， 例 如 左上 角 较 亮 ， 右 下 角 较 暗 ， 那 么 用 
局 部 装 值 代替 全 局 阔 值 也 许 更 加 合适 。 这 个 思想 有 时 称 为 动态 (dynamic) 阔 值 化 。 在 一 些 应 
用 中 ， 目 标的 近似 形状 和 尺寸 事先 可 以 知道 ， 这 时 称 为 基于 知识 (knowledge-based) (pal ft 
化 。 该 方法 对 区 域 结 果 进 行 评价 ， 并 进行 最 佳 阔 值 选择 。 最 后 ， 有 的 图 像 不 能 闭 值 化 ， 必 须 
用 别 的 方法 来 查找 目标 。 





Be hamna 。 
编写 程序 实现 Otsu 自 动 阔 值 确定 方法 。 试 着 在 几 种 不 同类 型 的 扫描 图 像 上 运行 编写 的 程序 。 
3.9 参考 文献 


关于 连通 成 分 的 标记 运算 还 有 其 他 一 些 不 同 的 算法 ， 每 种 算法 都 是 针对 某 个 目的 开发 的 。 
Tanimoto (1990) 假设 整 幅 图 像 能 够 载 和 内存， 采用 简单 的 递归 算法 ， 算 法 每 次 处 理 一 个 成 
分 ， 可 对 整 幅 图 像 进行 扫描 。 还 有 一 些 算法 是 针对 较 大 图 像 的 ， 这 些 图 像 受 内 存 限制 不 能 一 
次 全 部 载 人 。 算 法 每 次 只 处 理 一 幅 图 像 的 两 行 像素 。Rosenfeld 和 Pfaltz (1966) 提出 两 阶段 算 
法 ， 算 法 用 了 全 局 性 等 价 表 ， 有 时 被 称 为 经 典 (classical) 连通 成 分 算法 。Lumia、Shapiro 和 
Zuniga (1983) 提出 另 一 种 两 阶段 算法 ， 采用 局 部 等 价 表 以 避免 内 存 不 足 问题 。 Danielsson 和 
Tanimoto (1983) 为 大 型 并 行 机 设计 的 算法 ， 采 用 并 行 传播 策略 。 记 录 等 价 对 的 任何 算法 都 
可 用 并 查 数据 结构 (Tarjan, 1975) 来 有 效 执行 集合 合并 运算 。 
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Serra (1982) 第 一 次 提出 数学 形态 运算 的 系统 化 理论 。Sternberg (1985) 为 快速 运算 设 
计 了 并 行 流水 线 结构 ， 并 用 于 医学 成 像 和 工业 机 器 视觉 。 他 也 把 二 值 形态 运算 扩展 到 灰 度 形 
态 运 算 (1986)， 这 已 成 为 标准 的 图 像 滤 波 算法 。Haralick、Sternberg 和 Zhuang (1987) 发 表 
了 关于 二 值 形态 运算 和 灰 度 形态 运算 的 导论 性 论文 ,体现 了 他 们 在 计算 机 视觉 领域 的 价值 。 
Shapiro、MacDonald 和 Sternberg (1987) 的 研究 表明 形态 特征 检测 可 用 于 目标 识别 。 

在 一 些 论文 中 论述 了 自动 闪 值 化 。 本 书 描述 的 方法 参考 的 是 Otsu (1979)。 其 他 方法 由 
Kittler 和 Illingworth (1986) 以 及 Cho、Haralick 和 Yi (1989) 提出 。Sahoo 等 人 (1988) 对 六 


值 技术 进行 了 综述 。 
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第 4 章 模式 识别 


本 章 概 述 了 目标 识别 的 方法 ， 这 些 方法 主要 是 对 图 像 中 的 目标 进行 识别 ， 也 适用 于 其 他 
类 型 的 数据 ， 其 基本 方法 是 将 待 识别 的 样本 表示 成 向 量 。 在 所 列举 的 几 个 例子 中 ， 中 心 回 题 
是 字符 识别 。 本 章 还 向 读者 介绍 一 些 简 单方 法 ， 根 据 这 些 方法 ， 机 器 能 够 通过 向 示例 学 习 从 
而 识别 出 目标 。 在 学 习 完 前 四 章 之 后 ， 读 者 就 能 够 理解 完整 的 机 器 视觉 系统 设计 过 程 ， 并 且 





能 够 针对 一 些 简单 而 实用 的 问题 ， 编 写 出 完整 的 算法 并 进行 实验 。 


4.1 模式 识别 问题 


在 许多 应 用 问题 中 ， 都 需要 对 图 像 内 容 作 出 判定 或 者 对 图 像 中 包含 的 目标 进行 分 类 。 例 
如 ， 用 户 输入 到 笔记 本 电脑 的 可 能 是 手写 字符 。 在 这 种 情况 下 ， 有 m = 128 个 ASCII 字 符 ， 每 


个 手写 字符 将 被 归 类 为 这 m 类 中 的 一 类 ， 


00000000000000000000 00000000000000000000 
参见 图 4-1。 和 确定 一 个 有 标的 类 则 ， 就 是 说 00000000010000000000 00000000011110000000 
， 00000000110000000000 00000001100001100000 
HBa « » o>» 里 «o» H tte y 
判断 它 是 “A” 还 是 “8 "， 是 基于 它 的 光 — 99000000101000000000  00000011000000110000 
学 图 像 特 征 或 者 是 压 痕 特征 ， 压 痕 的 表示 00000001100110000000 00000100000000010000 
、 、 — - 00000001000010000000 00001100000000011000 
与 图 像 类 似 。 分 类 过 程 实际 上 也 可 能 失败 ， 00000010000010000000 00001000000000001000 
原因 是 字迹 过 于 渡 草 ， 或 是 人 们 发 明 的 新 ”00000110000001i000000 00001000000000011000 
ao , ea wee 00000100000001000000 00001100000000010000 
字符 。 一 般 为 了 包括 这 种 情况 ， 在 设计 系 。 90000100000001100000  00000100000000110000 
统 时 加 入 一 个 “拒绝 ”类 别 。 属 于 拒绝 类 00001000000000100000 00000111000000100000 
~~ a,  00001100111211110000  00000011100111100000 
别 的 图 像 数据 在 后 面 的 更 高 一 层 要 再 进行 ”00001111110000010000 00000000111100000000 
一 次 检测 ， 结 果 或 者 成 为 一 个 新 类 别 , 或 ”900011000000000011000 00000011000111000000 
zep 、 00010000000000001000 00000110000001100000 
者 就 以 原始 形式 保存 下 来 。 00010000000000001100 00001100000000110000 
银行 自动 柜员 机 (ATM) 借助 摄像 头 00110000000000000100 00011000000000011000 
00110000000000000110 00110000000000001000 
sh. TA FT M4 pe 日 H > = 
来 验证 当前 的 用 户 是 否 是 合法 用 户 。 这 时 00100000000000000010 00100000000000001100 
要 将 当前 用 户 的 面部 图 像 与 已 经 存储 的 图 00100000000000000010 00010000000000011000 
01100000000000000010 00011000000000010000 
> [2] sy te ` X x 
像 做 比较 ,或 者 是 与 当前 帐户 有 关联 的 、 01000000000000000000 00001000000000110000 
存在 计算 机 网 络 或 银行 卡 上 的 图 像 做 比较 。 00000000000000000000 00001110000011100000 
00000000000000000000 00000011111110000000 
定义 23 ”将 一 个 目标 实例 与 一 个 目标 00000000000000000000 00000000000000000000 
原型 或 类 别 定义 进行 匹配 的 过 程 称 为 图 4-1 CA” 和 8 的 一 值 图 像 


验证 。 


第 1 章 的 习题 中 介绍 过 另 一 种 应 用 ， 食 物 识别 系 统 对 放 在 收银 机 台秤 上 的 水 果 和 蔬菜 进行 
分 类 。 类 别 是 所 有 可 识别 商品 类 型 的 集合 ， 如 爱 达 荷 州 的 苹果 、 富 士 苹果 、 绿 甘蓝 、 绿 菠菜 
和 蘑菇 等 。 每 类 都 有 自己 的 名 字 及 每 磅 的 价钱 。e 


识别 的 一 个 定义 是 再 认识 。 


识别 系统 必须 记忆 要 识别 的 目标 。 这 种 记忆 可 能 是 天 生 的 ， 


如 青蛙 眼中 的 飞 虫 模型 ; 也 可 能 是 从 大 量 实例 中 学 到 的 ， 像 学 校 老 师 教 字母 表 那 样 ; 或 者 是 


日 ”这 样 的 系统 称 为 Veggie Vision， 已 由 IBM 开 发 出 来 ， 参 见 第 16 章 。 
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编 人 程序 的 具体 图 像 特征 ， 像 母亲 教 孩子 区 分 消防 车 与 公共 汽车 那样 。 模 式 识别 和 模式 学 习 
是 认 知 心理 学 、 模 式 识别 和 计算 机 视觉 的 深层 研究 主题 和 兴趣 所 在 。 本 章 从 实用 的 角度 ， 介 
绍 具 有 成 功 应 用 背景 的 方法 ， 并 在 本 章 末 列 出 了 大 量 的 理论 参考 文献 。 
4.2 分 类 模型 

我 们 对 分 类 模型 的 组 成 部 分 进行 总 结 ， 这 种 划分 是 从 实用 的 角度 而 不 是 从 理论 的 角度 进 
行 的 。 这 样 做 便于 在 设计 模式 识别 系统 时 ， 采 取 分 块 开发 硬件 和 软件 模块 的 方法 。 
4.2.1 类 别 

有 m 个 已 知 的 目标 类 别 ， 所 谓 已 知 是 指 或 者 有 关于 类 别 的 描述 ， 或 者 有 属于 每 个 类 别 的 样本 
集合 。 例如， 对 于 字符 识别 ， 或 者 是 对 每 个 字符 有 其 外 形 描述 ， 或 者 是 对 每 个 字符 都 有 对 应 的 
样本 集合 。 一 般 还 包括 一 个 特殊 的 拒绝 类 别 ， 这 是 为 那些 不 属于 任何 已 知 类 别 的 目标 而 设计 的 。 


定义 24 ”一 个 理想 类 别 是 一 些 具 有 重要 共同 属性 的 目标 的 集合 。 在 实际 中 ， 某 目标 
所 属 类 别 用 类 别 标 号 来 标识 。 分 类 就 是 根据 目标 的 属性 表示 赋予 目标 类 别 标号 的 过 
程 。 分 类 器 是 一 种 设备 或 算法 ， 它 输入 的 是 目标 的 表示 ， 输 出 的 是 类 别 标号 。 
定义 25 拒绝 类 别 是 为 无 法 归 入 任何 已 知 类 别 的 目标 设置 的 通用 类 别 。 


4.2.2 传感器 /变换 器 

为 了 能 用 计算 机 处 理 ， 必 须 有 某 种 设备 能 够 感 测 实际 的 目标 ， 并 输出 目标 表示 (通常 是 
数字 信息 )。 最 一 般 的 做 法 是 从 现 有 的 成 品 传感器 中 选择 一 种 。 例 如 ， 为 了 对 超市 的 蔬菜 进行 
分 类 ， 首 先 用 一 般 的 彩色 摄像 机 ， 从 它 摄 取 的 图 像 中 抽取 颜色 、 形 状 和 纹理 特征 。 为 了 识别 
压 出 的 字符 ， 采 用 压力 敏感 阵列 进行 测量 。 

由 于 本 书 是 关于 机 器 视觉 的 ， 我 们 最 感 兴 趣 的 是 产生 2D 阵 列 感知 数据 的 传感器 。 然 而 模 
式 识别 本 身 更 加 通用 ， 如 用 于 识别 语音 电话 号 码 ， 以 及 识别 写 在 纸 上 的 电话 号 码 。 
42.3 特征 抽取 算 子 

特征 抽取 算 子 从 传感器 得 到 的 数据 中 抽取 分 类 的 相关 信息 。 一 般 特征 抽取 由 软件 完成 。 
软件 的 输入 与 传感器 的 硬件 输出 相 适 应 ， 经 过 中 间 的 研究 与 开发 ， 最 后 输出 分 类 结果 。 第 3 章 
中 定义 了 许多 图 像 特 征 。 
4.2.4 分 类 器 

分 类 器 利用 从 目标 数据 中 抽取 的 特征 ， 赋 予 目标 m 个 指定 类 别 中 的 一 个 类 别 ，m 个 类 别 为 
Cy, Ca, Co Cn = C 其 中 C, 表 示 拒 绝 类 别 。 

图 4-2 所 示 为 一 个 分 类 系统 的 框图 。 输 入 是 一 个 d 维 的 特征 向 量 x， 表 示 待 分 类 的 目标 。 对 
每 一 个 可 能 的 类 别 ， 系 统 都 用 一 个 方 框 表 示 ， 它 包含 该 类 别 的 相关 知识 K 和 处 理 能 力 。m 个 类 
别 的 计算 结果 被 传递 给 最 终 的 决策 阶段 ， 在 该 阶段 决定 目标 的 类 别 。 一 般 说 来 ， 这 个 框图 足 
以 表示 将 讨论 的 三 种 分 类 方法 : (a) 最 近 均 值 分 类 ，(b) 最 大 后 验 概率 分 类 ，(c) 前 向 人 工 
神经 网 络 分 类 。 
4.2.5 分 类 系统 的 建立 

系统 的 每 个 部 分 都 有 多 种 实现 方法 。 图 像 传感器 在 第 2 章 中 介绍 过 。 第 3 章 讨 论 了 如 何 根 
据 目 标的 二 值 图 像 计 算 多 种 不 同 的 特征 。 颜 色 和 纹理 特征 计算 将 在 第 6 和 第 7 章 讨 论 。 这 里 再 
次 用 到 字符 识别 这 个 例子 。30 x 20 的 窗口 中 的 字符 有 600 个 像素 点 ， 特 征 抽取 需要 处 理 这 600 
个 像素 点 ， 并 输出 10 到 30 个 特征 ， 这 些 特征 是 分 类 决策 的 依据 。 这 个 例子 将 在 下 面 继续 讨论 。 
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图 4-2 DARREL. HIAR Se, 利用 训练 中 得 到 的 知识 K 对 输入 特征 向 量 x 进 行 计算 ， 
并 把 结果 传递 给 最 终 的 决策 阶段 ， 决 策 阶段 输出 所 属 类 别 

特征 抽取 算 子 的 另 一 个 常用 名 字 是 预 处 理 器 (preprocessor)。 在 传感器 和 分 类 器 之 间 ， 要 
进行 滤波 和 去 噪 ， 这 些 也 是 预 处 理 的 一 部 分 。 第 3 章 已 经 涉及 了 一 些 去 噪 运算 ,更 多 的 将 在 第 
5 章 讨论 。 特 征 抽 取 与 分 类 的 划分 界限 多 少 带 有 随意 性 ， 这 种 划分 更 多 地 是 从 工程 的 角度 ， 而 
不 是 从 应 用 问题 本 身 的 内 在 属性 上 进行 的 。 事 实 上 ， 我 们 将 看 到 神经 网 络 可 以 从 输入 图 像 直 
接地 一 步 得 到 分 类 结果 。 
4.2.6 系统 错误 估计 

分 类 系统 的 错误 率 (error rate) 是 衡量 系统 设计 好 坏 的 一 个 指标 。 其 他 的 指标 还 有 速度 和 
成 本 等 。 速 度 指 每 单位 时 间 可 被 分 类 的 目标 数量 ， 成 本 指 硬 件 和 软件 的 开发 成 本 。 性 能 由 错误 
率 和 拒绝 率 决 定 。 如 果 将 所 有 的 输入 样本 都 分 成 拒绝 类 别 ， 虽 然 错误 率 为 0 但 这 毫 无 意义 。 

定义 26 ”如 果 一 个 输入 样本 的 真实 类 别 为 C;,， 而 分 类 器 将 其 划分 为 类 别 C,，izj， 且 

C+ C, (拒绝 类 别 )， 那 么 称 分 类 器 产生 了 一 个 分 类 错误 (classification error), 

定义 27 分 类 系统 的 经 验 错误 率 (empirical error rate ) ， 指 在 独立 测试 数据 集 上 产生 

的 错 分 样本 个 数 与 总 的 分 类 样本 个 数 之 比 。 


定义 28 分 类 系统 的 经 验 拒绝 率 (empirical reject rate ) ， 指 在 独立 测试 数据 集 上 产生 
的 拒绝 样本 个 数 与 总 的 分 类 样本 个 数 之 比 。 


定义 29 ”独立 测试 数据 (Independent Test Data) 指 在 设计 特征 抽取 和 分 类 算法 时 未 

被 使 用 过 的 样本 ， 且 这 些 样本 的 类 别 是 已 知 的 ， 包 括 来 自 拒绝 类 别 的 样本 。 

在 实际 应 用 中 ， 可 用 上 面 的 定义 测试 分 类 系统 的 性 能 。 对 于 系统 将 处 理 的 样本 而 言 ， 必 
须 保证 用 来 设计 系统 的 样本 和 用 来 测试 系统 的 样本 ， 是 具有 代表 性 的 样本 ， 并 且 测 试 样本 必 
须 与 设计 样本 独立 。 有 时 假设 数据 服从 一 定 的 理论 分 布 。 在 这 个 假设 前 提 下 ， 可 以 对 系统 性 
能 进行 预测 ， 从 理论 上 算出 系统 的 误差 概率 ， 而 不 是 通过 测试 得 到 经 验 错误 率 。 这 个 概念 将 
在 下 面 讨论 。 

掌上 电脑 的 手写 字符 识别 模块 ， 对 输入 字符 的 正确 识别 率 可 达 95% 。 如 果 用 户 要 对 -篇 
输入 文档 进行 编辑 ，5% 的 错误 率 是 可 以 接受 的 。 有 趣 的 是 ， 这 种 系统 实际 上 在 不 断 训练 用 户 ， 
同时 用 户 也 在 训练 系统 ， 结 果 使 性 能 逐渐 提高 。 例 如 用 户 认真 学 习 写 “8”， 目 的 是 为 了 不 与 
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“6” 混 淆 。 然 而 对 于 读 取 存 款 单 上 手写 数据 的 银行 系统 ，5% 的 错误 率 可 能 是 无 法 容忍 的 。 
4.2.7 误 报 和 漏 报 

有 些 问题 是 特殊 的 二 类 问题 (two-class problem ) ， 两 个 类 别 可 能 是 如 下 情况 : (a) 好 的 
与 坏 的 ; (b) 目标 出 现在 图 像 中 与 目标 没有 出 现 ;，(c) 患 有 疾病 D 的 人 与 没 患 疾病 D 的 人 。 
这 里 误差 具有 特殊 的 意义 并 且 是 不 对 称 的 。 情 况 (c) 最 能 说 明 这 个 问题 。 如 果 系 统 不 正确 地 
判断 某 人 患 有 疾病 D， 则 这 个 错误 称 为 误 报 或 假 阳 (false alarm 或 false positive) ; 相反 ， 如 
果 系 统 不 正确 地 判断 病人 未 患 有 疾病 D， 则 这 个 错误 Roc 
MA MIR ALA (false dismissal 或 false negative). 100 
在 误 报 的 情况 下 ， 可 能 意味 着 这 个 人 将 经 受 更 多 的 
检查 ， 或 者 服用 并 不 需要 的 药品 ， 在 漏 报 的 情况 下 ， 
病人 错过 了 诊断 ， 将 得 不 到 治疗 ， 可 能 导致 严重 的 
后 果 。 由 于 这 两 种 错误 的 代价 显著 不 同 ， 具 有 倾向 
性 的 决策 是 有 意义 的 ， 即 为 了 使 漏 报 最 小 化 ， 不 惜 
增加 误 报 的 次 数 。 如 果 是 为 了 挑 出 坏 樱 桃 ， 情 况 (a) 04 x o 
则 不 会 产生 很 大 的 问题 。 误 报 可 能 造成 好 樱桃 被 做 误 报 
成 馅 饼 ， 而 不 是 进入 更 能 体现 其 价值 的 生产 车 间 。 
情况 (b) 中 的 误 报 可 能 意味 着 ， 当 场景 中 事实 上 并 ”图 43 受 试 者 操作 曲线 ( 即 ROC) 显示 了 


` i , ‘ed E E 正确 检测 率 与 误 报 率 的 关系 。 总 的 
无 动静 的 时 候 我 们 打开 灯 浪 费 了 能 源 ， 或 者 当 高 速 来 说 ， 为 了 以 较 高 百分比 检测 出 已 
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公路 上 并 没有 汽车 通过 时 我 们 错误 地 算 了 一 辆 。 情 知 目标 ,， 则 系统 误 报 率 会 随 之 升 高 ， 
况 (>) 中 的 漏 报 也 具有 有 趣 的 结果 。 图 4-3 是 一 条 典 采用 保守 的 检测 一 般 能 得 到 较 低 的 
型 的 受 试 者 操作 曲线 (ROC, receiver operating 误 报 率 。 若 要 全 部 目标 几乎 都 被 正 
curve)， 它 反映 了 误 报 率 与 检测 率 的 关系 。 为 了 增加 确 检测 ， 将 导致 大 百分比 的 未 知 目 
正确 识别 目标 的 百分比 ， 常 常 要 将 本 该 拒绝 的 目标 标 被 错误 地 分 在 已 知 关 别 中 

错误 确定 为 接受 。 


43 查 准 率 与 查 全 率 

在 文档 检索 (DR) 或 图 像 检索 中 ， 检 索 目 标 是 ， 根 据 用 户 提 供 的 查询 特征 ， 检 索 出 感 兴 
趣 的 Cl 类 的 目标 和 少量 不 感 兴趣 的 C, 类 的 目标 。 例 如 ， 用 户 想 检索 出 日 落 或 马 的 图 像 。 衡 量 
这 个 系统 的 指标 是 查 准 率 (precision) MEAE (recall). 


定义 30 ”文档 检索 系统 的 查 准 率 ， 是 检索 出 的 相关 文档 数 (确实 属于 Ci 类 ) 与 检索 
出 的 文档 总 数 (确实 属于 Ci 类 的 文档 数 加 上 实际 是 C, 类 的 误 报 文档 数 ) 之 比 。 


定义 31 ”文档 检索 系统 的 查 全 率 ， 是 检索 出 的 相关 文档 数 与 数据 库 中 总 的 相关 文档 
数 之 比 ， 即 分 子 是 检索 出 的 确实 属于 Ci 的 文档 数 ， 分 母 是 检索 出 的 属于 Ci 的 文档 数 
与 漏 报 的 文档 数 之 和 。 


例如 ， 假 设 一 个 图 像 数 据 库 包 含 200 幅 用 户 感 兴趣 的 日 藩 图 像 ， 用 户 希 望 能 与 查询 图 像 匹 
配 。 假 设 系统 检索 出 200 个 相关 图 像 中 的 150 幅 以 及 另外 100 幅 用 户 不 感 兴趣 的 图 像 。 这 次 检索 
(分 类 ) 的 查 准 率 是 150/250 = 60%， 而 查 全 率 是 150/200 = 75%。 如 果 系 统 将 数据 库 中 的 所 有 
图 像 返 回 ， 则 查 全 率 是 100% ,但 查 准 率 将 非常 低 。 另 一 方面 ， 如 果 分 类 是 为 了 获得 低 误 报 率 
的 话 ， 查 准 率 将 偏 高 而 查 全 率 将 偏 低 。 图 像 数 据 库 检索 将 在 第 8 章 详细 讨论 。 
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4.4 特征 表示 

无 论 是 理论 上 还 是 实践 中 ， 一 个 关键 的 问题 都 是 在 识别 过 程 中 对 目标 怎样 表示 或 者 编 
码 ? 或 者 说 ， 什 么 特征 对 于 识别 而 言 是 重要 的 ? 让 我 们 回 到 手写 字符 识别 的 应 用 问题 上 。 假 
设 单个 字符 可 以 通过 连通 成 分 算法 分 离 出 来 ， 或 者 要 求 把 它们 写 在 指定 的 方 框 中 ， 那 么 采用 
第 3 章 的 方法 就 可 以 算出 下 面 的 特征 : 

“以 黑色 像素 数 表 示 的 字符 面积 

* 字符 边界 框 的 高 度 和 宽度 

。 字 符 内 孔 的 个 数 

“字符 的 笔画 数 

。 像素 集合 的 中 心 (质心 ) 

“通过 像素 的 最 佳 轴 的 方向 ， 即 最 小 惯性 轴 的 方向 

REKATE PEHIA ER- E 

利用 常识 推理 ， 我 们 可 以 根据 以 上 特征 值 列 出 一 个 字符 属性 表 。 研 究 每 个 字符 的 许多 样 
例 可 以 使 表格 更 准确 。 然 后 进行 简短 的 决策 过 程 对 字符 进行 分 类 ， 至 少 是 一 组 用 来 比较 的 字 
符 原型 。 

表 4-1 表 示 10 个 不 同 字 符 的 8 种 特征 ， 现 在 假设 特征 计算 没有 误差 。 如 算法 4.1， 可 用 一 系 
列 的 决策 过 程 对 这 10 类 样本 进行 分 类 。 这 个 分 类 结构 称 为 决策 树 (decision tree)。 表 中 的 决 
策 可 以 很 容易 由 计算 机 程序 实现 ， 特 征 值 也 通过 计算 机 程序 读 取 。 在 决策 过 程 的 每 一 点 ， 都 
有 小 部 分 特征 分 支 到 决策 过 程 的 其 他 点 。 在 当前 的 例子 中 ， 每 个 决策 点 只 用 到 了 一 个 特征 。 
分 支 过 程 表示 当 接连 考虑 更 多 的 特征 时 ， 可 能 性 集合 变 小 。 

采用 这 个 例子 是 因为 它 比 较 直 观 。 如 果 认 为 迄今 所 描述 的 决策 过 程 ， 与 实际 手写 字符 识 
别 系 统 的 有 效 决策 过 程 是 差不多 的 ， 想 法 则 不 免 简 单 。 例 如 ， 可 靠 地 定义 和 计算 笔画 数 就 非 
常 困难 ， 在 第 10 章 我 们 将 看 到 一 种 有 效 的 算法 。 此 外 在 抽取 特征 前 ， 需 要 采用 第 3 章 和 第 5 章 
的 方法 去 除数 据 中 的 干扰 。 在 受 控 工业 环境 中 ， 可 以 建立 这 样 简单 的 分 类 过 程 ， 然 后 根据 样 
例 图 像 调 整定 量 参 数 。 我 们 应 该 对 类 内 特征 差异 和 类 间 特 征 重叠 进行 预测 。 处 理 这 些 差 异 和 
重 伙 的 方法 将 在 下 面 进行 研究 。 

算法 4.1 根据 三 个 特征 对 10 个 字符 进行 分 类 的 简单 决策 过 程 

输入 : 特征 向 量 [ #holes, #strokes, moment of inertia ] 

输出 : 字符 类 别 


case of #holes 





0: character is 1, W, X, *, -, or / 
case of moment about axis of least inertia 
low: character is 1, -, or / 


case of best axis direction 
0: character is - 
60: character is / 


90: character is 1 
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character is W or X or xy 


large: 
case of #strokes 
0: character is x 
2: character is X 
4: character is W 
1: character is A or O 
case of #strokes 
0: character is o 


3: character is A 
2: character is B or 8 


case of #strokes 
0: character is 8 


l: character is B 




















表 4-1 字符 样本 集 的 特征 举例 

(类 别 ) 字符 面积 高 度 宽度 Atk Bw 中 心 最 佳 轴 ”最 小 惯性 
'A' medium high 3/4 1 3 1/2,2/3 90 medium 
'B' medium high 3/4 2 1 1/3,1/2 90 large 
‘8 medium high 2/3 2 0 1/2,1/2 90 medium 
‘0’ medium high 2/3 1 0 1/2,1/2 90 large 
1 low high 1/4 0 1 1/2,1/2 90 low 
W high high 1 0 4 1/2,2/3 90 large 
‘x’ high high 3/4 0 2 1/2,1/2 ? large 
ve medium low 1/2 0 0 1/2,1/2 ? large 
‘ low low 2/3 0 1 1/2,1/2 0 low 
7 low high 2/3 0 1 1/2,1/2 60 low 

4.5 特征 向量 表示 x 


比较 目标 的 相似 度 可 以 基于 它们 的 向 量 表示 。 
假设 每 个 目标 可 以 通过 d 个 量度 表示 ， 特 征 向 量 的 第 
i 个 坐标 对 每 个 目标 A 都 有 同样 的 意义 。 例 如 ， 第 一 
个 坐标 可 能 是 目标 的 面积 ， 第 二 个 是 在 第 3 章 中 定义 
的 行 矩 Wv， 第 三 个 是 伸 长 度 等 等 。 量 度 是 实数 或 者 
浮 点 数 是 很 方便 的 。 两 个 目标 特征 向 量 间 的 相似 度 
或 接近 度 ， 可 用 公式 (4-1) 定义 的 欧 几 里 得 距离 描 
述 ， 如 图 4-4 所 示 ， 这 在 下 一 节 将 进行 讨论 。 有 时 被 
测 向 量 和 存储 的 类 别 原型 之 间 的 欧 几 里 得 距离 可 以 
提供 实用 的 分 类 函数 。 


定义 32 ”两 个 d 维 特征 向 量 x, 和 x, 的 欧 几 里 得 距 
离 定 义 为 : 





Class 2 


Class 1 





—> X 
图 4-4 两 个 紧凑 类 别 。 用 最 近 均 值 分 类 
方法 ， 将 得 到 较 低 的 错误 率 
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xı 一 xz| = X ali] — x2[i])? (4-1) 


i=l,d 


4.6 分 类 器 的 实现 

我 们 回 到 经 典 的 范例 ， 将 待 分 类 的 未 知 目标 表示 成 原子 特征 向 量 。 一 个 识别 系统 可 以 基 
于 特征 向 量 以 不 同 的 方式 设计 ， 这 些 特征 向 量 可 以 通过 样 例 学 习 得 到 或 者 由 模型 预测 得 到 。 
利用 一 个 训练 样本 数据 库 来 调查 这 两 种 不 同 的 方法 。 假 设 有 m 个 类 别 的 目标 , 不 包括 拒绝 类 别 ， 
对 类 别 有 n 个 样本 向 量 。 在 算法 4.1 的 字符 识别 的 例子 中 ， 有 m = 10 类 的 字符 ， 对 每 一 类 可 能 
Fin, = 100 个 样本 。 在 这 个 例子 中 特征 向 量 的 维 数 是 d = 8。 
4.6.1 最 近 均值 分 类 

一 个 简单 的 分 类 算法 是 用 类 别 均值 向 量 ， 即 中 心 (centroid)， 来 概括 每 个 类 别 的 样本 数 
据 ， 吉 =1/m xj 其 中 x 是 来 自 类 i 的 第 个 样本 特征 向 量 。 一 个 未 知 目标 ， 其 特征 向 量 是 x 
和 如果 它 到 类 别 :的 均值 向 量 要 比 到 其 他 类 的 均值 向 量 更 近 ， 那 么 就 把 它 分 成 类 别 :。 如 果 x 与 任 
何 样本 均值 都 不 够 接近 ， 就 将 其 归 为 拒绝 类 。 这 种 分 类 方法 简单 快速 ， 当 每 个 类 别 的 样本 向 
量 是 紧密 的 且 远离 其 他 类 别 时 ， 这 种 分 类 方法 也 是 有 效 的 。 简 单 的 二 类 问题 如 图 4.4 所 示 ， 其 
中 特征 向 量 维 数 d = 2。 类 别 1 的 样本 向 量 用 x 表 示 ， 类 别 2 的 样本 向 量 用 o 表 示 。 尽 管 我 们 期 记 
当 样本 结构 能 很 好 地 表示 未 来 感 测 的 目标 结构 时 ， 错 误 率 将 非常 低 ， 但 由 于 每 类 都 有 到 两 类 
中 心 等 距 的 样本 ,错误 率 将 不 会 是 零 。 现 在 对 图 4-2 中 的 功能 框 进行 具体 解释 ， 第 ;个 功能 框 计 
算 未 知 输入 x 与 第 类 训练 样本 的 均值 向 量 间 的 距离 。 训 练 样本 构成 了 类 别 的 知识 K。 


硬币 分 类 


对 美国 硬币 分 别 进行 10 采 样 (1 美 分 、5 美 分 、 
1 角 、25 美 分 、50 美 分 、1 美 元 )。 利 用 千分尺 分 别 类 别 2 
测量 60 个 样本 的 直径 和 厚度 ， 精 确 到 0.01in。 然后 | oo 





0 oà 
像 图 4-4 那 样 画 出 这 6 个 类 别 的 散 点 图 。( 测 量 厚度 veka) _ Sm 
的 地 方 要 保持 一 致 ， 要 么 在 硬币 的 中 心 ， 要 么 在 硬 A a 
币 的 边缘 ) 估计 最 近 均值 分 类 器 的 错误 率 。 Sete ee 


当 样 本 的 结构 复杂 时 ， 分 类 的 难度 会 增加 。 图 
4-5 显 示 的 是 样本 类 别 可 分 的 情况 ， 但 样本 结构 却 
使 最 近 均 值 分 类 效果 不 佳 ， 这 有 多 种 原因 。 首 先 ， 
类 别 2(o) 是 多 模式 的 (multimodal), 其 样本 聚集 成 
两 个 分 开 的 区 域 , 这 样 总 均值 落 在 两 个 模式 的 中 间 ， 
从 而 无 法 很 好 地 表示 该 类 别 。 类 别 1(x) 中 有 几 个 样 图 4-5 具有 复杂 结构 的 三 个 类 别 。 基 于 最 
本 离 类 别 2 的 均值 比 离 类 别 1 的 均值 更 加 接近 。 研 究 近 均 值 的 分 类 将 得 到 很 差 的 结果 
这 些 样本 ， 可 以 发 现 类 别 2 的 两 种 模式 ， 并 把 类 别 2 
分 成 两 个 子 类 ,用 两 个 均值 表示 。 对 于 2D 情 况 来 说 ， 如 图 4-5 所 示 的 散 点 图 表示 起 来 比较 简单 。 


o 
0 
e 。9 类 别 2 
0 oA 
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长 察 类 区 域 有 关 。 显 然 ， 类 别 3 中 坐标 x, 值 大 的 那些 样本 ， 离 类 别 2 的 均值 比 离 类 别 3 的 均值 更 
近 。 同 样 ， 即 使 类 别 2 分 成 两 个 模式 ， 类 别 1 中 坐标 x 小 的 那些 样本 离 类 别 2 的 子 类 的 均值 仍然 
很 近 。 这 个 问题 可 以 通过 修改 距离 计算 来 解决 ， 计 算 距 离 时 需要 考虑 样本 沿 不 同 维度 的 散 差 。 

可 以 对 未 知 特征 向 量 x 到 类 别 均值 向 量 xe 的 距离 进行 修改 ， 利 用 类 别 c 沿 维度 ;的 散 差 ， 或 
者 称 为 标准 差 (standard deviation )。 标 准 差 是 方差 的 平方 根 。 


定义 33 从 向 量 x 到 类 别 均值 向 量 x 的 尺度 化 欧 几 里 得 距离 为 : 





IIx — el] = /2 (li) — xeli /0;)? (4-2) 


i=l,d 


由 于 沿 不 同 维度 的 单位 不 同 ， 欧 氏 距 离 总 是 需要 进行 尺度 变换 。 例 如 对 车 辆 进行 分 类 ， 
特征 x[1] = 长度， 以 英尺 (ft.)9 为 单位 ; x[2] = 重量 ， 以 磅 (lb) 9 为 单位 。 如 果 不 进行 尺度 变换 ， 
欧 氏 距离 将 由 大 数值 的 磅 控制 ， 车 辆 长 度 特征 在 分 类 中 的 作用 就 体现 不 出 来 。 

在 图 4-5 所 示 的 例子 中 ， 类 别 2 的 两 个 模式 各 自 都 有 均值 向 量 ， 根 据 类 别 对 特征 x 和 x, 分别 
进行 尺度 变换 ， 将 得 到 很 好 的 分 类 结果 。 但 是 多 数 情况 并 不 这 样 简单 。 如 果 样 本 分 布 的 椭圆 
不 像 图 4-5 那 样 与 坐标 轴 平 行 的 话 ， 为 了 正确 计算 未 知 样本 到 类 别 均值 的 距离 则 需要 进行 坐标 
变换 。 在 下 面 的 贝 叶 斯 分 类 方法 中 将 讨论 这 个 问题 。 如 果 样 本 集 在 d 维 空间 中 结构 弯曲 ， 则 分 
类 问题 更 加 困难 。 

4.6.2 最 近邻 分 类 

认为 未 知 特征 向 量 x 的 类 别 与 其 最 近 的 样本 类 别 一 致 ， 这 种 方法 虽然 灵活 但 计算 开销 大 ， 
这 就 是 最 近邻 规则 。 即 使 当 类 别 在 4 维 空间 中 具有 复杂 的 结构 以 及 当 类 别 有 重 春 时 ， 最 近邻 分 
类 也 是 有 效 的 。 对 特征 向 量 在 空间 中 的 分 布 模型 不 需要 做 任何 假设 ,算法 利用 的 仅仅 是 已 知 
的 训练 样本 。 一 种 策 方 法 (算法 4.2) 是 ， 计 算 从 x 到 数据 库 中 所 有 样本 的 距离 ， 并 记 住 最 小 
的 距离 。 这 种 方法 的 优点 是 新 标记 的 样本 可 以 在 任何 时 候 加 入 数据 库 。 可 采用 一 定 的 数据 结 
构 去 除 不 必要 的 距离 计算 。 树 状 或 网 格 状 数据 集 就 是 这 样 的 两 个 例子 ， 在 本 章 参 考 文献 中 有 
所 描述 。 

更 好 的 分 类 决策 是 检查 数据 库 中 的 最 近 的 个 特征 向 量 。 当 k> 1 时 ， 可 以 对 d 维 空间 中 的 
向 量 分 布 进行 更 好 地 采样 。 对 类 别 重 普 的 区 域 ， 这 尤其 有 用 。 已 经 表明 当 样 本 数量 趋 于 无 穷 
大 时 ， 即 便 k = 1 错误 率 也 不 超过 最 优 错误 率 的 两 倍 。 理 论 上 ， 当 k> 1 时 效果 更 好 ; 但 是 有 效 
地 利用 一 个 大 值 x 取 决 于 在 空间 的 每 个 邻 域 都 存在 着 大 量 的 样本 ， 不 需要 搜索 距离 过 远 的 样 
本 。 在 一 个 k = 3 的 二 类 问题 中 ， 如 果菜 类 别 中 的 3 个 最 近 的 样本 有 2 个 最 接近 x， 则 将 x 分 到 该 
类 。 如 果 这 样 的 类 别 数 大 于 2， 则 有 更 多 的 可 能 组 合 ， 决 策 也 更 复杂 。 在 下 面 的 算法 4.2 中 ， 
如 果 多 数 最 近 k 个 样本 不 属于 一 个 类 别 ， 则 将 输入 向 量 归 为 拒绝 类 别 。 算 法 假设 训练 样本 集中 
没有 用 数据 结构 。 没 有 数据 结构 ， 当 样本 数 4 和 增加 时 ， 算 法 速度 则 变 慢 。 利 用 有 效 的 样本 
数据 结构 的 算法 在 本 章 结尾 的 参考 文献 中 可 以 找到 。 





© ft. = 0.3048m 
© 1 lb=0.4536kg 
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算法 4.2 计算 x 的 k 个 最 近邻 并 返回 多 数 样 本 的 类 别 
S 是 n 个 已 标记 类 别 样本 s 的 集合 ， 其 中 si.x 是 特征 向 量 ，s;c 是 它 的 整 型 类 别 标号 。 
x 是 待 分 类 的 未 知 输入 特征 向 量 。 
A 是 一 个 数组 ， 可 以 存储 以 距离 4 排序 的 k 个 样本 。 
返回 值 是 在 范围 [1, mm] 内 的 类 别 标号 。 

procedure K_Nearest_Neighbors(x, S) 

{ 

make A empty; 

for all samples s; in S 

{ 

d = Euclidean distance between s, and x; 


if A has less than k elements then insert (d, s,) into A; 





else if d is less than max A 
then { 
remove the max from A; 





insert (d,s;) in A; 
} 
b 
assert A has k samples from S closest to x; 


if a majority of the labels s;.c from A are class co 





then classify x into class c, ; 
else classify x into the reject class; 


return(class_of_x); 


_| 





4.7 结构 方法 

只 有 目标 的 简单 数字 特征 或 符号 特征 ， 对 于 识别 来 说 有 时 是 不 够 的 。 例 如 ， 考 察 图 4-6 所 
示 的 两 个 字符 。 它 们 具有 相同 的 边界 框 ， 同 样 数目 的 孔 和 笔画 ， 同 样 的 中 心 ， 行 方向 和 列 方 
向 具有 相同 的 二 阶 矩 ， 主 轴 方 向 相差 在 0.1 弧 度 内 。 每 个 字符 都 有 两 个 洲 (bay)， 湾 是 指 背 最 
侵入 到 字符 的 部 分 。 每 个 湾 都 有 一 个 盖 〈lid) ， 即 一 条 使 湾 合 上 的 虚拟 线段 。 这 两 个 字符 最 显 [104] 
著 的 区 分 特征 是 关系 : 两 个 湾 之 间 的 空间 关系 。 左 边 的 字符 ， 上 部 湾 的 盖 在 下 部 湾 的 盖 的 右 
边 ; 右边 的 字符 ， 上 部 注 的 盖 在 下 部 湾 的 盖 的 左边 。 这 意味 着 基本 特征 之 间 的 关系 可 以 作为 
高 层 特征 使 用 ,并且 对 于 识别 来 说 可 能 更 加 有 效 。 结 构 模式 识别 (structural pattern 
recognition) 就 是 从 这 个 前 提 发 展 出 来 的 。 

统计 模式 识别 通常 用 特征 向 量 表示 实体 ， 其 分 量 一 般 是 原子 值 ， 比 如 数字 和 布尔 值 ( 真 
或 假 )。 这 些 值 可 度量 实体 的 一 些 全 局 特征 ， 如 面积 或 空间 矩 。 字 符 例子 又 前 进 了 一 步 ， 因 为 
对 于 每 个 字符 都 度量 了 孔 的 个 数 和 笔画 数目 。 这 暗示 着 存在 寻找 和 计算 孔 的 算法 以 及 一些 可 
将 字符 分 割 成 笔画 的 分 割 算法 。 
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图 4-6 两 个 全 局 特征 相同 但 结构 不 同 的 字符 


在 结构 模式 识别 中 ， 
征 来 表示 。 图 4-7 显 示 三 个 具有 类 似 结构 
的 A 字符 。 每 个 都 可 分 解 成 4 个 主要 的 笔 
H: 两 个 水 平 的 和 两 个 紧 直 (或 倾斜 ) 
的 。 每 个 字符 的 顶部 都 有 一 个 孔 ， 或 称 
“TH”, EOP AS; 湖 和 湾 由 一 个 水 平 
的 笔画 分 开 。 

当 基 元 之 间 的 关系 是 二 值 关 系 时 ， 
一 个 实体 的 结构 描述 就 可 看 成 图 的 结构 。 
字符 识别 中 下 列 的 笔画 、 湾 和 湖 之 间 的 
关系 是 有 用 的 : 

e CON: 定义 两 个 笔画 的 连接 

。ADJ: 定义 一 个 笔画 的 区 域 与 一 个 

湖 或 一 个 湾 的 区 域 邻 接 

“ABOVE: 定义 一 个 孔 ( 湖 或 者 湾 ) 

在 另 一 个 之 上 

图 4-8 说 明 利 用 这 三 种 二 值 关 系 ， 对 
字符 “A” 结 构 描述 的 图 表示 方法 。 更 高 
层 的 关系 ， 如 三 元 甚至 四 元 关系 ， 如 果 能 
够 进行 定义 , 则 用 来 提供 更 强 的 约束 关系 。 
例如 在 湖 、 湖 下 的 水 平 笔 画 和 笔画 下 的 湾 
三 者 之 间 就 存在 着 一 种 约束 关系 。 

结构 模式 识别 通常 依靠 图 匹配 的 算 
法 来 实现 ， 这 部 分 内 容 包含 在 第 11 章 中 。 


一 个 实体 可 以 由 它 的 基本 部 件 、 部 件 属性 、 部 件 间 的 关系 以 及 全 局 特 
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图 4-7 三 个 具有 相似 结构 的 A 





图 4-8 字符 “A” 的 图 结构 表示 。“S”、“L”、“B” 
分 别 代表 边 、 湖 和 湾 


两 个 基 元 之 间 的 关系 本 身 也 可 看 作 一 个 原子 特征 ， 可 以 作为 特征 向 量 中 的 分 量 ， 在 统计 决策 


过 程 中 使 用 。 


一 个 特征 。 


一 种 简单 的 方法 是 ， 仅 仅 计算 两 个 特殊 特征 类 型 (例如 ， 
下 面 ) 之 间 的 某 种 特定 关系 在 一 个 模式 中 出 现 的 次 数 。 


一 个 湾 在 水 平 笔画 的 
计数 的 整 型 值 则 成 为 识别 整个 模式 的 
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结构 方法 对 于 识别 包含 许多 子 模式 的 复杂 模式 是 很 有 用 的 。 在 更 高 层次 的 场景 理解 中 它 
也 具有 优势 ， 尤 其 是 当 有 多 个 目标 出 现时 。 一 般 地 说 ， 结 构 模 式 识 别 和 本 章 其 他 方法 涵盖 了 
计算 机 视觉 的 大 部 分 内 容 。 本 书 其 余 章 节 将 提供 更 多 从 2D 或 3D 的 目标 和 场景 中 抽取 特征 或 部 
件 的 方法 。 

48 混淆 和 矩阵 
定义 34 ”混淆 矩阵 通常 用 来 反映 分 类 实验 的 结果 。 图 4-9 给 出 了 一 个 例子 。 第 衔 第 / 
列 的 元 素 记录 实际 类 别 是 的 目标 被 分 成 类 别 j 的 次 数 。 
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图 4-9 数字 识别 的 假定 混淆 矩阵 。“R” 代 表 拒 绝 类 别 

混 清 矩阵 的 对 角 线 上 ， 即 ; = /处 ， 表 示 正 确 分 类 的 次 数 。 完 美的 分 类 结果 是 所 有 非 对 角 线 
的 元 素 都 是 0。 非 对 角 线 的 元 素 太 大 ， 说 明 类 别 之 间 混 淆 程度 太 高 ， 就 要 重新 考虑 特征 抽取 过 
程 以 及 分 类 过 程 。 如 果 完 成 整个 测试 ， 混 请 矩阵 则 表示 工作 系统 中 预期 的 错误 种 类 和 错误 率 。 
在 图 4-9 所 示 的 例子 中 ， 系 统 的 1000 个 输入 向 量 中 有 7 个 被 拒绝 。 标 记 为 类 别 9 的 三 个 输入 被 不 
正确 地 分 成 了 类 别 4， 同 时 标记 为 类 别 4 的 两 个 输入 被 不 正确 地 分 成 了 类 别 9。 总 计 ， 有 25 个 输 
入 问 量 被 错误 分 类 。 假 设 测 试 数据 与 用 来 训练 分 类 系统 的 数据 无 关 ， 可 以 得 到 经 验 拒绝 率 是 
7/1000 = 0.007， 总 的 错误 率 是 25/1000 = 0.025。 对 类 别 9 的 错误 率 是 5/100 = 0.05. 


4.9 决策 树 

当 模 式 识别 的 任务 变 得 复杂 ， 包 含 许多 不 同 的 可 能 特征 时 ， 将 一 个 完全 未 知 的 特征 向 量 
与 许多 不 同 模式 的 特征 向 量 比较 太 耗 时 间 。 在 医学 诊断 中 这 样 做 甚至 是 不 可 能 的 ， 因 为 医学 
诊断 中 特征 测量 通常 意味 着 高 成 本 的 、 困 难 的 实验 室 测试 。 决 策 树 的 利用 使 得 特征 抽取 和 分 
类 过 程 交 织 在 一 起 。 决 策 树 是 一 个 紧 竣 结构 ， 它 每 次 利用 一 个 (可 能 是 多 个 ) 特征 将 搜索 空 
间 分 成 各 种 可 能 的 模式 。 算 法 4.1 的 简单 决策 过 程 ， 实 现 的 控制 流程 如 图 4-10 所 示 的 决策 树 。 
树 的 节点 代表 特征 向 量 的 不 同 特征 。 每 个 分 支 节点 对 该 特征 的 每 个 可 能 值 有 一 个 子 节点 。 决 
策 过 程 根据 未 知 特征 向 量 的 特定 特征 值 选择 子 节点 。 一 个 子 节点 可 能 定义 另 一 个 被 测试 的 特 
征 ， 也 可 能 是 一 个 叶子 节点 ， 叶 子 节点 包含 由 根 到 叶子 整个 路 径 得 到 的 分 类 结果 信息 。 


定义 35 ”二 又 决策 树 是 一 个 二 又 树 结构 ， 每 个 节点 都 关联 着 一 个 决策 函数 。 对 未 知 特 
征 向 量 应 用 决策 函数 来 决定 下 一 个 被 访问 的 节点 是 当前 节点 的 左 子 节点 还 是 右 子 节点 。 
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最 简单 的 情况 是 采用 数值 特征 值 ， 节 点 的 决策 函数 仅仅 是 将 未 知 特征 向 量 的 一 个 特定 特 
征 值 与 阔 值 比较 ， 如 果 特 征 值 小 于 阔 值 ， 则 选择 左 子 节点 ， 和 否则 选择 碳 子 节点 。 在 这 种 情况 
下 ， 树 的 每 个 分 支 节点 仅 需 要 存储 要 用 的 特征 和 病 值 ， 每 个 叶子 节点 存储 模式 类 别 的 名 称 。 
如 果 决 策 树 的 决策 过 程 到 达 某 个 叶子 节点 ， 则 未 知 特征 向 量 就 被 分 到 该 模式 类 别 。 图 4-11 表 
示 了 这 种 类 型 的 决策 树 ， 它 的 构造 就 是 为 了 将 所 示 的 训练 数据 正确 分 类 。 

图 4-11 中 树 的 构造 是 通过 观察 数据 选择 合适 的 特征 和 闪 值 人 工 完成 的 。 这 里 的 训练 数据 
只 是 一 个 简单 例子 ， 实 际 数据 可 能 有 更 多 的 特征 和 更 多 的 样本 。 对 于 像 医学 诊断 这 样 的 实际 
应 用 ， 具 有 几 百 个 特征 和 成 千 个 训练 样本 是 常见 的 。 在 这 种 情况 下 就 需要 决策 树 能 够 自动 构 
造 。 此 外 ， 对 任意 给 定 的 训练 样本 集 ， 能 将 它们 分 类 的 决策 树 可 能 有 不 止 一 种 ， 因 此 根据 某 
种 标准 选择 特征 得 到 最 好 的 决策 树 是 很 重要 的 。 最 好 的 决策 树 具有 简单 、 层 数 少 和 测试 少 的 

考察 图 4-12 中 的 训练 数据 和 两 种 可 能 的 决策 树 。 两 棵 树 都 能 将 训练 数据 分 成 两 个 类 别 ; 
类 别 I 和 II[。 左 边 的 树 非常 简单 ， 它 仅 用 一 次 比较 就 可 对 特征 向 量 做 出 分 类 ， 而 右边 的 树 则 要 
复杂 些 ， 需 要 更 多 的 比较 。 


TEH # 笔画 # 笔画 


小 大 o A 8 B 
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图 4-10 实现 算法 4.1 分 类 过 程 的 决策 树 
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图 4-11 基于 节点 特征 和 闭 值 构造 的 二 叉 树 
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图 4-12 两 棵 不 同 的 决策 树 ， 都 能 对 给 定 的 训练 样本 分 类 
决策 树 的 自动 构造 ”从 训练 数据 构造 最 优 决策 树 有 许多 不 同 的 方法 ， 每 种 方法 都 有 自己 
的 最 优化 定义 。( 深 入 了 解 请 参见 Haralick and Shapiro, vol. I, Chapter 4.) 一 种 简单 有 效 的 方 
法 来 自信 息 论 。 信 息 论 最 基本 的 概念 是 简 (entropy ) 。 
定义 36 事件 集 x = {xp X … , x, UME LA: 


已 (x) = 一 ye, Pilog2Pi (4-3) 
tal 


其 中 每 个 x 表示 一 个 事件 ，p; 是 事件 x 的 概率 。 
炉 可 以 解释 为 信息 源 的 平均 不 确定 性 。Quinlan (1986) 4 Fil FA— Pp PME, BRAD 
信息 增益 来 估计 特征 并 生成 最 优 决 策 树 。 


XT FY RES A Se HET IT RIF 
考察 三 种 可 能 事件 以 及 它们 的 概率 
X = {(x1, 3/4),(%, 1/8), (x3, 1/8)} 
WNIT An T: 
A(x) = —[(3/4)log, (3/4) + (1/8)log , (1/8) + (1/8)log , (1/8)] 


= —[(3/4)(—0.415) + (1/8)(— 3) + (1/8)(- 3)] 
= 1.06 
KM, ARR SE PE I Le 2.0 
X = {(x,, 1/4), (x, 1/4), (x3, 1/4) (x4, 1/4)} 
A(x) = —[4 ((1/4)(—2))] = 2 


(a) TRS RRO. (b) RS TREE AO I, EATS EK oy AE (1/8, 
3/4, 1/16, 1/16 }. 


信息 论 使 得 我 们 能 度量 一 个 事件 的 信息 内 容 。 对 于 每 个 特征 事件 ， 类 别 事件 的 信息 内 容 
对 我 们 的 问题 尤其 有 用 。 信 息 内 容 1(C; F) 可 由 下 式 定义 ， 其 中 类 别 变 量 C 可 能 的 取 值 是 {c， 
Cas s Cn}， 特 征 变 量 F 可 能 的 取 值 是 {fi, A, > Sa) 


m 


d 
1(C; Fi=> P= 


i=l j=l 


P(C =c, F = fj) 


W082 BC aa) P(F= fy) (4-4) 
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其 中 PC = c) 是 类 别 C 具 有 值 c 的 概率 ，P(F =f) 是 特征 F 具 有 值 /的 概率 ，P(C = c ;下 = 方 ) 
是 类 别 C = ci 和 变量 已 = f 的 联合 概率 。 这 些 先 验 概率 可 以 对 训练 数据 中 的 事件 频率 进行 估计 得 
到 。 例 如 ， 由 于 类 别 I 在 四 个 训练 样本 中 出 现 两 次 ( 见 图 4-12)， 则 P(C = D = 2/4 =0.5。 由 于 四 
个 训练 样本 中 的 三 个 的 特征 值 X 都 是 1!， 则 P(X = 1) = 3/4 =0.75。 
我 们 可 以 利用 信息 内 容 度 量 来 决定 在 决策 树 的 根部 选择 哪个 特征 最 佳 。 对 三 个 特征 X、 了 
和 2 分 别 计算 7C, F) 如 下 : 
P(C =1,X =!) 
I(C, X) = P(C=1,X = Dog pr = HP =D 
+ P(C = 1, X = 0)log, = = Saar) 
P(C =11,X =1) 
P(C =IDP(X =1) 


P(C =11,X =0 
+ P(C = 11, X = og pe ) 





+P(C = I1, X = Ilog 











II) P(X =0) 
0.5 0.25 0.25 
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98205 x0,75 1 0 +05log2 3 0635 十 0.25 908205 075 
= 0.311 
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=1.0 
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I(C, Z) =0.25jog)—-—-— +0.25]og) —— 2 + 0.25log) — 2—40. oe 
(C, 2) 108295505 1 OB ggo Slo 0 0st025log Os x5 


= 0.0 


特征 7 的 信息 内 容 是 1.0， 在 确定 类 别 时 信息 量 最 大 ， 因 此 应 该 被 选 作 第 一 个 特征 ， 在 决 
策 树 的 根 结 点 上 测试 。 在 这 个 简单 的 例子 中 ， 两 个 类 别 完全 可 分 ， 决 策 树 用 一 个 分 支 节点 就 
完成 了 分 类 。 更 一 般 的 情况 下 ， 在 树 的 每 个 分 支 节 点 ， 当 选用 的 特征 不 能 完全 将 训练 样本 集 
分 到 合适 的 类 别 时 ， 样 本 集 根据 在 这 个 节点 的 决策 被 划分 成 子 集 。 对 于 仍 包含 多 个 类 别 的 样 
本 子 集 ， 在 相应 的 子 节点 递归 调用 决策 树 的 构造 算法 。 

这 里 描述 的 算法 与 图 4-10 的 决策 树 相同 ， 这 是 一 棵 通用 的 树 ， 在 每 个 节点 上 被 测 特 征 的 
每 个 可 能 的 取 值 都 有 分 支 。 为 了 适应 如 图 4-11 所 示 的 阔 值 类 型 的 二 又 树 ， 对 每 个 可 能 的 阔 值 
必须 考虑 每 对 特征 - 阔 值 对 的 信息 内 容 。 看 起 来 可 能 的 集合 有 无 穷 多 ， 但 对 训练 样本 中 出 现 的 
每 个 特征 都 具有 有 限 的 几 种 取 值 ， 这 个 有 限 集 合 就 是 需要 考虑 的 全 部 。 

上 面 的 例子 非常 简单 ， 针 对 几 十 个 其 至 几 百 个 特征 ,自动 构 造 实 用 的 决策 树 是 完全 可 能 
的 。 再 次 考虑 字符 识别 问题 ， 但 这 次 是 对 于 更 困难 的 手写 字符 。 这 类 字符 的 特征 是 4.6 节 讨论 
CHA, SAA. MES PHIL (标记 为 0 的 区 域 ， 完 全 被 标记 为 1 的 字符 像素 所 包围 的 )。 
湾 是 背景 侵入 字符 的 部 分 (标记 为 0 的 区 域 ， 部 分 被 标记 为 1 的 字符 像素 包围 )。 盖 是 可 用 来 闭 
合 湾 的 线段 。 图 4-13a 表 示 的 手写 字符 6，b 中 是 它 的 湾 特 征 和 湖 特征 ，c 中 是 它 的 盖 特 征 。 第 3 
章 描述 的 数学 形态 和 运算 可 用 来 抽取 这 些 基 本 特征 。 从 这 些 基 本 特征 ， 可 计算 出 下 面 的 数值 特 
征 : 
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“ 湖 数 : 抽取 出 的 湖 的 个 数 

“BR: 抽取 出 的 湾 的 个 数 

* 盖 数 : 抽取 出 的 盖 的 个 数 

* 湾 在 湾 之 上 : 布尔 特征 ， 如 果 有 任何 一 个 湾 完全 位 于 另 一 个 湾 之 上 ， 则 该 值 为 真 

* 盖 在 湾 右 侧 : 布尔 特征 ， 如 果 存在 一 个 盖 完 全 位 于 一 个 湾 右 边 ， 则 该 值 为 真 

* 湾 在 湖 之 上 : 布尔 特征 ， 如 果 存 在 一 个 湾 完全 位 于 一 个 湖 之 上 ， 则 该 值 为 真 

“ 盖 在 图 像 底部 : 布尔 特征 , 如 果 任何 一 个 盖 的 最 低 点 在 整个 字符 最 低 点 的 像素 集合 之 内 ， 

则 该 值 为 真 

当 训练 样本 充足 时 ， 可 利用 这 些 特征 构造 一 棵 能 对 手写 数字 分 类 的 决策 树 。 图 4-14 显 示 
数字 0 ~ 9 的 训练 数据 样本 集 。 


a) b) c) 


图 4-13 

a) 手写 字符 “6” 的 图 像 
b) 上 部 是 用 形态 图 像 处 理 抽取 的 湾 ， 下 部 是 湖 
c) 进一步 用 形态 处 理 得 到 的 湾 的 盖 
Me wenn 

训练 数据 如 图 4-14 所 示 ， 写 一 个 程序 ， 它 利用 信息 内 容 来 构造 决策 树 ， 对 10 个 数字 进行 
分 类 。 基 于 全 部 40 个 样本 构造 的 树 ， 对 训练 数据 的 分 类 效果 如 何 ? 如果 基 于 后 20 个 样本 构造 
树 ，、 用 前 20 个 样本 进行 测试 ， 情 况 会 怎样 ? 





owe 








ioe 





DO NNN 








怎样 利用 第 3 章 的 形态 图 像 处 理 方法 抽取 一 个 湖 ? 

(b) 如 果 已 经 识别 出 一 个 湾 ， 怎 样 抽取 它 的 盖 ? 
4.10 贝 叶 斯 决策 

考虑 如 何 用 概率 分 布 的 知识 ， 进 行 分 类 决策 使 期 望 的 错误 率 最 小 。 假 设 从 瞳 红色 想 桃 的 
红外 图 像 中 得 出 测量 值 ?， 由 该 值 判 断 栅 桃 的 好 坏 。 设 好 樱桃 为 类 别 w,， 坏 樱桃 为 类 别 w,。 另 
外 假设 已 从 大 量 的 好 樱桃 和 坏 樱 桃 中 研究 了 许多 的 表面 元 素 ， 因 此 我 们 已 有 分 布 函数 的 知识 ， 
如 图 4-15 所 示 。 右 边 的 曲线 ，P(xlol) 表 示 好 樱桃 表面 样本 测量 值 x 的 分 布 。 左 边 的 曲线 ， 
PClwo) 表 示 坏 樱桃 表面 样本 测量 值 x 的 分 布 。 对 数据 进行 规范 化 ， 使 得 在 每 条 曲线 下 的 面积 是 
1.0， 两 条 都 表示 概率 分 布 。( 坏 的 组 织 含 有 水 ， 比 好 的 组 织 吸收 更 多 的 红外 辐射 ， 因 此 反射 
系数 很 可 能 更 低 些 。 水 分 含量 不 同 ， 表 面 颜色 的 暗 度 不 同 ， 导 致 了 两 类 分 布 的 重 又 ， 即 一 些 
深 瞳 的 好 栅 桃 和 一 些 明 亮 的 坏 栅 桃 具有 类 似 的 反射 ) 
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图 4-14 手写 字符 的 训练 数据 

如 有 果 好 樱桃 与 坏 樱桃 出 现 的 概率 相等 ， 并 且 分 类 错误 的 代价 是 相同 的 ， 那 么 可 以 做 这 样 
的 决策 : 当 z> 时 ，x 属 于 类 别 w; 否则 属于 类 别 @,。 对 于 这 样 的 决策 规则 ，t 右 边 的 阴影 部 分 
表示 (两 倍 的 ) 漏 报 率 ， 这 是 把 坏 樱桃 接受 为 好 楼 桃 的 高 测量 值 * 的 概率 。 面 积 之 所 以 是 漏 报 
率 的 两 倍 是 因为 已 经 假设 每 类 的 先 验 概率 是 0.5， 这 样 每 种 密度 应 该 缩小 使 得 曲线 下 的 总 面积 
是 0.5。t 左 边 的 阴影 部 分 表示 (两 倍 的 ) 误 报 率 ， 这 表示 好 樱桃 由 于 特征 zx< id A 
概率 。 由 于 假设 在 好 机 桃 和 坏 栅 桃 系统 的 输入 中 出 现 的 概率 是 相等 的 ， 所 以 每 条 曲线 实际 上 
仅仅 表示 总 概率 的 一 半 ， 所 有 显示 的 面积 是 它们 实际 大 小 的 两 倍 。 总 误差 是 曲线 下 阴影 部 分 
的 面积 总 和 。 重 要 的 是 ， 将 决策 六 值 1 向 左 或 向 右 移动 都 将 导致 阴影 面积 扩大 即 错误 率 增加 。 

上 面 的 例子 仅 考虑 了 一 种 特殊 情况 ， 即 两 个 类 别 的 概率 相同 ， 错 误 的 代价 也 是 相同 的 。 
现在 将 方法 扩展 到 可 以 覆盖 m 个 类 别 的 情况 ， 这 m 个 类 别 都 有 各 自 不 同 的 先 验 概 率 。 为 简单 起 
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见 ， 我 们 仍 保留 所 有 错误 的 代价 相同 的 假设 。 利 用 贝 叶 斯 决策 ， 可 以 将 目标 分 到 它 最 可 能 属 
于 的 类 别 。 
p(x) 
P(xle,) 





误 报 率 ihe 


图 4-15 亮度 测量 值 xz 的 条 件 分 布 ， 关 于 x 是 取 自 好 楼 桃 还 是 坏 楼 桃 
定义 37 贝 叶 斯 分 类 器 基于 观测 的 特征 ， 将 目标 划分 为 它 最 可 能 属于 的 类 别 。 
为 了 计算 观测 值 x 的 概论 ， 需 要 知道 下 面 的 分 布 : 


类 别 条 件 分 布 : 每 个 类 别 @ 的 条 件 概率 p(xla2) (4-5) 
先 验 概率 : 每 个 类 别 由 的 先 验 概 率 P(w) (4-6) 
无 条 件 分 布 : p(x) (4-7) 


如 果 所 有 类 别 必 之 间 都 是 不 相交 的 ， 给 定 每 类 的 先 验 概率 和 每 类 x 的 分 布 ， 可 以 应 用 贝 叶 
斯 规则 计算 每 类 的 后 验 概率 
p(x loi)P(wi) p(x | @;)P(@) 

P(X) Tin POR j)P(@;) (4-8) 


回 到 图 4-2 的 分 类 器 框图 ， 在 每 个 类 别 的 计算 方 框 内 , 令 fi(x, K) =Po), XHAR (4-8) 
的 贝 叶 斯 规则 可 以 计算 为 p(xl@)P(@)/p(x)。 由 于 p(x) 对 于 所 有 类 别 的 计算 都 是 相同 的 ， 可 以 
忽略 它 ， 分 类 决策 定 为 选择 最 大 的 p(xl@)P(@w)。 为 设计 贝 叶 斯 分 类 器 ， 必 须 具备 知识 K， 在 这 
里 是 每 个 类 别 的 先 验 概率 P(@) 以 及 类 别 条 件 分 布 p(x1@;)。 这 些 知识 可 以 帮助 设计 最 优 决策 。 
建立 这 些 先 验 概率 的 知识 通常 非常 困难 。 例 如 ， 如 何 知道 进入 分 类 器 的 樱桃 是 坏 樱 桃 的 概 
E? 如 果 这 个 概率 随 着 天 气 和 采摘 成 员 变 化 ， 那 么 获取 条 件 变化 所 需要 的 信息 要 耗费 太 多 的 
采样 工作 。 

分 布 参数 模型 

在 实际 中 ， 必 须 以 某 种 方式 实现 p(xiw) 的 计算 。 一 种 经 验方 法 是 量化 x 的 范围 ， 在 每 个 时 
间 间 隔 记 录 x 在 该 范围 内 出 现 的 频率 ， 将 结果 存储 在 一 个 数组 或 直方 图 中 。 根 据 这 些 数 据 可 以 
拟 合 出 一 条 光滑 的 样 条 函数 ， 对 所 有 实数 都 可 生成 有 效 的 概率 函数 。 注 意 需要 将 结果 规范 化 
使 得 x 的 所 有 值 之 和 是 1.0。 如 果 观 察 到 x 的 分 布 服从 某 种 已 知 的 参数 模型 ， 就 可 以 利用 少数 几 
个 可 表征 的 参数 来 表示 分 布 。 泊 松 分 布 、 指 数 分 布 以 及 正 态 (或 高 斯 ) 分 布 都 是 经 常 使 用 的 
模型 。 正 态 分 布 是 著名 的 “ 钟 形 曲 线 " ， 大 学 课程 中 ， 经 常用 它 来 评定 分 数 等 级 。 


Ploi |x) = 


src Hen mt o a eeni aR AEE wan 


sien en te se mt a nA 


wa 
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定义 38 正 态 分 布 由 均值 4 和 标准 差 a 确 定 ， 定 义 如 下 : 
: = ND 





Re AT FR Ae RH AE EE EAS A (或 其 他 分 布 ) 模型 ， 这 可 参考 统计 学 
方面 的 文献 (例如 ， 文 献 中 Hogg 和 Craig 所 编 教材 。 )。 从 样本 数据 中 可 以 很 容易 算出 均值 和 标 
准 差 .从 而 得 到 正 态 分 布 模型 。 由 于 正 态 分 布 简单 并 具有 其 他 一 些 方便 的 数学 特征 ， 多 数 实 
现 都 利用 正 态 模型 ， 即 便 它 对 实际 数据 只 是 一 个 大 概 的 近似 。 

利用 参数 模型 (parametric model) 来 模拟 类 别 样本 的 分 布 ， 比 如 正 态 分 布 ， 那 么 图 4-2 实 
现 的 贝 叶 斯 决策 中 的 概率 比较 就 可 以 采用 简单 的 公式 。 一 旦 对 每 个 类 别 i 都 已 知 分 布 p(xl@)， 
可 利用 图 4-16 对 x 设置 赋值 以 便 区 分 类 别 。 而 且 ， 概 率 模型 可 以 直接 用 来 估计 错误 概率 ， 因 为 
现在 可 以 用 公式 表示 图 4-15 所 示 的 错误 区 域 。 

P(x) 





P(x) = N(u, o) = N(O, 1) 





p(x <2) 


TALS AS 
A AES th 
EER 
WN SN EN 


sl 


BE) t p(x<t) t p(x<t) 
-3.0 0.0014 =2.0 0.0227 -1.0 0.1587 
—2.9 0.0019 -1.9 0.0287 -0.9 0.1841 
=2 8: 0/0026 =1;8 (0.0359 -0.8 0.2119 
=2.7 0.0035 -1.7 0.0446 -0.7 0.2420 
-2.6 0.0047 -1.6 0.0548 -0.6 0.2743 
-2.5, 0.0062 -1.5 0.0668 -0.5 0.3085 
-2.4 0.0082 -1.4 0.0808 -0.4 0.3446 
=2 a 030107. -1.3 0.0968 -0.3 0.3821 
=Z. 0.0139 “1.2 0.1151 -0.2 0.4207 
=2.1 0.0179 “ls 0.2357 -0.1 0.4602 
0.0 0.5000 

利用 对 称 性 来 扩展 表 中 从 0.0 到 3.0 的 数值 ， 例 如 
P{ 2.0 <x <¢ 1.0) =p ( -20< % < 0.0) £p ( 0.0 =a © 1.6.) 
=[p(x<0.0) -p (x < -2.0) ] +p (-1.0 <x < 0.0 ) 


[ 0.5000 - 0.0227 ] + 0.1587 = 0.6360. 


图 4-16 正 态 分 布 ， 其 中 均值 人 = 0， 标 准 差 c= 1 


gg a ak 


如 何 估计 以 下 情况 的 先 验 概率 ? (a) 超市 中 一 个 顾客 会 买 菠菜 ; (b) 在 ATM 机 前 的 人 
EBRE; (c) 一 个 刚 摘 下 的 暗 红色 的 樱桃 是 坏 的 ; (d) 四 十 多 岁 的 人 患 有 胃癌 ? 
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习题 4.1 曾 要 求 测量 美国 硬币 的 直径 和 厚度 ， 利 用 1 美 分 、5 美 分 和 1 角 这 些 硬币 的 数据 。(a) 
设 特征 x 是 硬币 的 厚度 ， 计 算 这 三 类 硬币 的 均值 和 标准 差 。 是 否 存 在 阔 值 4 和 可 以 分 开 这 三 个 
类 别 并 使 得 总 的 错误 率 小 于 5%? 给 出 答案 并 进行 解释 。(b) 设 特征 x 是 硬币 的 直径 ， 重 复 (a) 
的 计算 。 

4.11 多 维 数据 决策 

在 当今 处 理 的 许多 实际 问题 中 ， 维 数 d = 10 或 者 更 多 是 很 常见 的 。 如 前 所 述 ， 最 近邻 分 类 
过 程 适用 于 具有 任意 维 数 4 的 特征 向 量 。 对 于 多 维特 征 向 量 x 也 可 用 参数 概率 模型 ， 关 于 涉及 
的 数学 处 理 方法 ， 读 者 可 查阅 相关 文献 。 这 里 我 们 简要 讨论 多 维 结构 的 概念 。 读 者 可 借助 参 
考 文 献 进行 相关 问题 的 深入 研究 。 

考虑 三 维 空间 中 的 两 类 样本 ， 每 类 的 形状 都 像 一 棵 树 ， 两 棵 树 在 一 起 成 长 。 类 别 1 的 数据 
外 形 像 一 棵 枫 树 ， 可 用 一 个 大 的 球面 近似 。 类 别 2 的 数据 外 形 像 一 棵 松树 ， 比 枫 树 高 并 且 细 ， 
它 可 用 一 个 椭 球 近似 ， 椭 球 的 主轴 比 其 他 两 个 次 轴 大 许多 。 类 别 1 的 样本 对 应 于 枫 树 的 叶子 ， 
类 别 2 的 样本 对 应 于 松树 的 针 。 另 外 ， 假 设 松树 穿 过 枫 树 的 树冠 成 长 并 超过 它 。 将 一 个 未 知 的 
3D 特 征 向 量 x 分 类 的 问题 要 求 与 3D 空 间 中 已 知 的 样本 结构 相 联系 。 如 果 x 在 枫 树 的 树冠 内 ， 又 
不 接近 松树 的 树干 ， 那 么 x 很 可 能 是 枫 树 (类 别 1)。 另 一 方面 ， 如 果 x 在 枫 树 的 树冠 外 或 者 接 
近 松 树 的 树干 ， 那 么 x 则 很 可 能 是 松树 (类别 2)。 在 空间 中 有 些 位 置 模 楼 两 可 ， 这 是 由 于 两 类 
样本 存在 重叠 。 最 重要 的 一 点 是 对 d 维 空间 中 样本 结构 的 理解 不 仅 有 助 于 做 出 有 根 有 据 的 决策 ， 
而 且 有 助 于 理解 发 生 的 错误 。 空 间 结构 可 以 用 大 型 样本 数据 库 表示 ， 其 中 用 数据 结构 概括 样 
本 的 子 集 ， 或 者 用 样本 子 集 的 参数 几何 模型 表示 空间 结构 。 

第 二 个 3D 例 子 也 同样 具有 启发 意义 。 假 设 类 别 1 的 样本 结构 为 弹簧 状 ， 或 螺旋 状 ， 类 别 2 
的 样本 结构 为 铅笔 状 , 或 杆 状 , 位 于 螺旋 的 轴 的 位 置 。( 或 者 想像 两 个 弹 得 缠绕 在 一 起 ， 因 为 
它们 可 能 被 放 在 同一 个 硬件 仓库 的 储藏 箱 里 。 ) 这 两 个 类 别 高 度 结构 化 ， 事实 上 是 一 维 的 ， 一 
旦 已 知人 们 的 结构 则 能 够 很 容易 地 分 开 。 最 近 均 值 分 类 器 在 这 里 不 起 作用 ， 因 为 均值 是 相同 
的 。 沿 各 维度 作 尺度 变换 也 无 能 为 力 ， 因 为 样本 仍然 缠绕 在 一 起 。 最 近邻 分 类 器 虽然 可 以 ， 
但 是 需要 存储 大 量 的 样本 。 一 种 现实 的 赫 换 方法 是 用 许多 杆 的 连接 来 到 近 螺 旋 的 数据 。 杆 可 
以 简单 地 用 一 个 圆柱 体 表示 。 分 类 可 以 通过 简单 的 几何 计算 检查 未 知 的 x 是 否 位 于 任何 圆柱 体 
之 内 来 进行 。 另 一 个 更 好 的 替换 的 方法 是 对 螺旋 形 采用 一 个 公式 描述 ; 其 参数 为 它 的 轴 、 半 
径 和 攀升 率 。 

在 将 这 些 想法 付 诸 实施 时 ， 我 们 注意 到 一 些 重要 的 观点 。 首 先 ， 捕 所 样本 数据 的 内 在 结 
构 和 维 数 非 常 重要 。 结 构 可 用 几何 或 统计 模型 表示 ， 模 型 允许 通过 简单 计算 进行 决策 ， 而 不 
是 搜索 一 个 巨大 的 无 结构 的 样本 数据 库 ; 其次， 数据 的 本 质 结构 与 度量 空间 的 轴 不 一 定 一 致 。 
比如 ， 松 树 或 螺旋 形 的 轴 不 一 定 是 沿 坐 标 轴 x[1]、x[2] 或 者 x[3] 的 。 发 现 结构 或 者 坐标 变换 的 
方法 将 在 参考 文献 中 给 出 。 





六 值 化 错误 率 


为 了 把 目标 从 背景 中 分 割 出 来 ， 要 对 图 像 进 行 阔 值 化 处 理 。 本 题 研究 面积 计算 的 潜在 错 
误 。 提 出 以 下 假设 : 


~ 
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。 图 像 具 有 512 x 512 个 像素 点 ， 图 像 中 的 目标 恰好 覆盖 3932 个 像素 点 。( 不 在 在 混合 像素 
点 ; 目标 的 边界 与 像素 的 边界 严格 对 应 。 不 存在 由 于 焦距 引起 的 邻 域 像 素 的 模糊 现象 。) 
。 由 于 表面 变化 ， 图 像 中 目标 像素 的 亮度 服从 分 布 N (80,5) (这 表示 均值 为 80 标 准 差 为 5 
的 正 态 分 布 ) 。 

。 类 似 地 ， 背 景 亮度 分 布 为 N (50,10). 

。 任 何 像素 点 的 灰 度 值 与 其 邻 域 像素 的 灰 度 值 无 关 。 

1. 如 果 图 像 阀 值 取 为 70， 当 I [r, cq] >= 70， 则 LABEL[r, c] = 1; @RILABEL[r, c] = 0, 
那么 预期 被 标记 为 目标 的 像素 点 的 个 数 是 多 少 ? 

. 图 像 中 哪些 被 标记 为 背景 的 像素 事实 上 是 目标 ? (这 些 是 漏 报 的 ) 

图 像 中 哪些 被 标记 为 目标 的 像素 事实 上 是 背景 ? (这 些 是 误 报 的 ) 

. 计算 目标 的 面积 时 ， 只 统计 被 标记 图 像 中 值 为 “1” 的 像素 点 的 个 数 ， 那 么 预期 的 错误 
百分比 是 多 少 ? 

.* 假 设 对 标记 图 像 去 除 盐 椒 (salt and pepper) 噪声 ， 方 法 是 如 果 某 像素 的 4 邻 点 都 具有 
与 其 不 同 的 值 ， 则 用 邻 域 像 素 点 的 值 代替 该 像素 的 值 ， 通 过 这 种 方法 可 以 创建 一 幅 新 
的 图 像 。 在 这 个 新 标记 的 图 像 中 统计 值 为 “1” 的 像素 点 个 数 作为 目标 的 面积 ， 那 么 预 
期 的 错误 百分比 是 多 少 ? 


4.12 机 器 学 习 

我 们 来 总 结 一 下 要 点 : 本 章 讨论 的 方法 提供 了 一 种 机 器 学 习 的 基本 类 型 ， 称 为 监督 学 习 
(supervised learning )。 第 16 章 中 的 物品 分 类 就 是 一 个 很 好 的 应 用 实例 。 我 们 已 经 假定 对 需要 
区 分 的 所 有 类 别 均 可 获得 有 标记 的 样本 ; 换 名 话说， 教师 知道 数据 的 结构 以 及 期 望 的 输出 。 
也 可 采用 无 监督 学 习 或 聚 类 的 方法 。 在 无 监督 学 习 中 ， 机 器 还 需要 决定 类 别 的 结构 ， 即 类 别 
是 什么 样 、 有 多 少 类 别 等 。 读 者 可 借助 参考 文献 来 研究 这 个 问题 。 

采用 最 近邻 分 类 时 ， 所 有 的 数据 样本 都 被 记忆 在 内 存 中 ， 需 要 识别 未 知 目标 时 则 要 访问 
内 存 。 机 器 的 识别 行为 完全 由 训练 数据 决定 。 在 采用 参数 模型 时 ， 类 别 模型 的 参数 从 训练 数 
据 中 学 习 得 到 ， 用 来 建立 可 能 目标 的 整个 空间 模型 。 下 面 一 节 是 选 学 内 容 ， 介 绍 监督 学 习 技 
术 ， 通 过 设计 判别 函数 来 模拟 有 机 体 的 神经 元 。 目 前 机 器 学 习 是 研发 的 热点 领域 ， 读 者 最 好 
查阅 更 多 的 文献 进行 更 深入 研究 。 
4.13 人 工 神经 网 络 * 

有 机 体 神经 元 具有 很 强 的 学 习 能 力 ， 为 了 在 机 器 学 习 中 运用 这 种 能 力 ， 人 们 进行 了 大 量 
的 研究 工作 。 图 4-17 是 神经 元 的 简单 模型 。 虽 然 这 个 模型 仅仅 是 对 生物 学 神经 元 的 一 种 近似 ， 
但 是 它 已 经 成 为 非常 重要 的 计算 模型 。 这 些 模拟 神经 元 组 成 的 网 络 ， 即 人 工 神经 网 络 或 ANN， 
已 经 证 明 在 许多 机 器 视觉 问题 上 非常 有 用 ， 特 别 是 因为 它们 的 学 习 能 力 。 人 工 神 经 网 络 能 够 
学 习 多 维 空间 中 样本 的 复杂 结构 ， 与 最 近邻 分 类 方法 相 比 需要 较 少 的 内 存 ， 它 还 可 实现 海量 
的 并 行 计算 。 这 里 对 人 工 神经 网 络 只 做 简单 介绍 ， 要 了 解 更 多 关于 这 个 广阔 且 发 展 以 迅速 的 
领域 ， 请 参考 相关 文献 。 
4.13.1 感知 器 模型 

如 图 4-17 所 示 ， 神 经 元 (AN) 通过 树 突 与 其 他 神经 元 或 传 感 细胞 相连 ， 接 收 d 个 输入 xj]。 
细胞 体 将 每 个 输入 乘 以 增益 因子 w[i， 并 将 结果 加 起 来 。 神 经 元 的 输出 y 沿 着 轴 突 送出 ， 轴 突 
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有 很 多 分 支 与 树 突 联接 ， 为 神经 元 网 络 中 的 其 他 神经 元 提供 输入 。 将 输入 的 加 权 和 送 入 细胞 ， 
细胞 的 输入 输出 模型 可 以 是 阶 跃 函 数 ， 即 把 输入 的 加 权 和 与 装 值 比较， 如 果 加 权 和 超过 闪 值 ， 
则 输出 y = 1; 反之 , 输出 y = 0。 这 个 二 值 输出 函数 如 图 4-17 的 左下 角 所 示 。 为 得 到 介 于 0 和 1 
之 间 的 光滑 输出 ， 可 以 采用 图 中 右 下 角 的 sigmoid 函 数 。 参 数 B 是 在 x = 1 处 的 斜率 或 增益 ， 它 对 
输入 乘 以 一 个 系数 ， 从 而 算出 x = 1 附近 的 输出 值 。 为 了 便于 表示 和 编程 ， 神 经 元 国 值 的 负 值 
存储 成 w[0]， 它 对 应 的 输入 x[0] 设 为 1.0， 如 公式 (4-10) 所 示 。 神 经 元 通过 调整 输入 向 量 x 的 
权 值 w 中 进行 学 习 。 


y=g bs: want) (4-10) 


j=0,d 


人 工 神经 元 








g(x) =14x>t ， 否 则 g,(x) =0 gp(x) = 1/(1 + exp — B (x — 2) 


图 4-17 神经 元 的 简单 模型 以 及 两 种 输出 条 件 函 数 





可 是 48 神经 元 模拟 
(a) 研究 神经 元 的 行为 ， 它 的 两 个 输入 是 x[ 了 和 x[2]， 权 值 w[1] = 0.8 ，w[2] = 0.3, Wir = 
1.0， 输 出 函数 采用 阶 跃 函数 G(x)。x[ 世 和 x[2] 的 值 分 别 取 为 0、1、2 和 3， 共 有 16 种 可 能 的 输入 
组 合 。 绘 出 输出 结果 ， 当 输出 是 1 时 ， 则 画 “1”; 当 输 出 是 0 时 ， 则 画 “0”。 
(b) 绘制 另 一 个 图 ， 这 次 采用 光滑 的 S 型 函数 ， 有 = 4。 问 题 中 的 其 他 元 素 都 相同 ， 注 意 现 
在 的 输出 将 是 实数 ， 而 不 简单 的 是 0 或 1。 


1. 设计 具有 “或 ” 门 功 能 的 神经 元 。 令 x[H 和 x[2] 是 仅 具有 布尔 值 0 或 1 的 两 个 输入 。 当 这 
两 个 输入 的 值 都 为 1 时 ， 神 经 元 的 输出 就 是 1; 当 两 个 输入 的 值 都 为 0 时 ， 神 经 元 的 输出 是 0。 
如 前 所 述 ，x[0] = 1， 闵 值 是 -w[0]。 确 定神 经 元 的 所 有 连接 权 值 。 在 2D 坐 标 系 中 画 出 4 种 输入 
组 合并 说 明 由 AN 实现 的 决策 边界 。 
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2. 设计 具有 “与 ” 门 功能 的 神经 元 。 重复 上 面 的 问题 。 仅 当 两 个 输入 的 值 均 为 1 时 ,“ 与 ” 
门 的 输出 才 为 1。 

3. 说 明 单 个 神经 元 是 如 何 实现 “ 非 ” 门 功能 的 。 输 入 的 值 为 0， 其 输出 则 为 1; 若 输入 的 
值 为 1 ， 其 输出 则 为 0。 


简单 人 工 神经 元 的 计算 能 力 ， 无 论 是 在 理论 上 还 是 在 实际 中 都 非常 有 趣 。 从 习题 4.9 知 道 ， 
一 个 神经 元 可 模拟 AND、OR 和 NOT 门 运算 ， 其 重要 性 在 于 任何 布尔 函数 都 可 以 通过 几 个 神经 
元 的 级 联 实现 。 从 习题 4.10 知 道 ， 单 个 神经 元 甚至 不 能 实现 简单 的 异 或 功能 ， 许 多 其 他 重要 
的 功能 也 无 法 由 单个 的 神经 元 实现 。Minski 和 Pappert 于 1987 年 发 表 的 文章 使 一 段 时 期 内 关于 
神经 元 的 研究 陷于 低潮 。 几 年 后 出 现 了 多 层 人 工 神 经 网 络 的 成 功 实例 ， 这 样 的 ANN 更 为 复杂 ， 
不 受 计算 能 力 的 限制 。 人 工 神经 网 络 计 算 能 力 的 理论 问题 留 给 读者 进一步 研究 ， 下 面 看 单个 
神经 元 的 简单 训练 算法 。 

假设 2D 样 本 的 两 个 类 别 可 以 用 一 条 直线 分 开 ， 比 如 图 4-4 所 示 的 情况 ， 只 要 把 重 公 区域 
中 的 “X” 和 “0” 去 除 。 显 然 能 够 得 到 分 割 线 的 参数 并 构造 一 个 神经 元 来 完成 分 类 决策 。 对 
于 3D 样 本 ， 我 们 可 用 一 个 分 割 平面 。 在 d 维 空间 中 ， 则 需要 一 个 超 平面 ， 但 概念 上 和 构造 上 都 
是 类 似 的 。 令 人 称奇 的 是 ， 如 果 对 二 类 问题 存在 一 个 分 割 超 平面 ， 那 么 就 存在 简单 的 学 习 算 
法 能 够 从 两 个 类 别 的 训练 样本 中 找到 该 超 平面 的 计算 公式 (参见 算法 4.3。) 关于 算法 收敛 到 
分 割 超 平面 的 证 明 ， 已 经 超出 了 本 书 的 范围 ， 具 体 请 参考 Duda 和 Hart (1973) 的 文献 。 

感知 器 学 习 算法 开始 时 权 值 是 随机 的 (包括 阀 值 )。 在 对 标记 样本 x 的 迭代 学 习 中 ， 权 值 
得 到 调整 。 对 于 类 别 1 的 样本 当权 值 向 量 (感知 器 ) 使 输出 为 正 时 ， 则 从 权 值 向 量 中 减 去 gain 
*X。 类似 地 对 类 别 2 的 样本 ， 如 果 输 出 为 负 时 ， 则 权 值 向 量 加 上 gainxx。 策 略 是 根据 对 当前 样 
本 中 的 学 习 ， 将 分 割 线 向 着 合适 的 方向 移动 。 增 益 控 制 着 变化 的 大 小 。 通 过 过 程 training_pass 
实现 这 些 调 整 。 当 所 有 的 训练 样本 都 被 处 理 过 一 轮 后 ， 调 用 过 程 check_samples 来 计算 有 多 少 
个 样本 被 具有 当前 权 值 的 神经 元 错 分 。 如 果 所 有 样本 都 被 正确 分 类 ， 那 么 算法 就 找到 一 个 解 ， 
算法 退出 。 否 则 ， 如 果 训 练 的 次 数 仍 未 达到 允许 的 最 大 值 ， 就 进行 下 一 轮 的 训练 ， 这 次 的 增 
益 是 前 一 轮 的 一 半 。 一 般 算法 实现 中 还 有 其 他 一 些 细节 性 的 控制 方法 。 

图 4-18 是 实现 感知 器 学 习 算 法 程序 的 输出 结果 。 通 过 构造 ， 所 有 类 别 1 的 样本 在 直线 y = 
1-x 下 面 ， 而 所 有 类 别 2 的 样本 在 该 直线 上 方 。 两 类 样本 之 间 存 在 一 段 间隙。 算法 非常 快速 地 
找到 直线 -1 + 5/4x + 5/4x, = 0 来 分 割 这 两 个 类 别 。 如 输出 所 示 ， 每 个 类 别 1 的 样本 都 产生 一 
个 负 响应 ， 每 个 类 别 2 的 样本 都 产生 一 个 正 响应 。 

虽然 基本 学 习 算法 很 简单 ， 但 也 存在 一 些 难点 。(1) 样本 以 什么 样 的 次 序 排列 可 以 加 快 学 
习 速 度 ? 理论 表明 ， 为 保证 收敛 性 ， 每 个 样本 可 能 要 出 现任 意 多 次 。 有 的 算法 对 某 个 给 定 的 
样本 重复 训练 直至 它 被 正确 分 类 ， 然 后 再 继续 下 一 个 样本 。(2) 所 用 的 增益 因子 影响 收敛 性 。 
例子 程序 中 在 学 习 完 所 有 的 训练 样本 后 将 增益 因子 减 半 。(3) 为 使 将 来 样本 的 分 类 能 有 更 好 的 
性 能 ， 要 求 算法 在 两 类 之 间 搜索 一 条 最 佳 直线 ， 而 不 是 任意 的 分 割 线 。(4) 当 训练 耗费 了 很 长 
时 间 时 ， 怎 么 知道 这 是 不 是 因为 样本 本 身 不 可 分 ? (5) 怎样 修改 学 习 算法 ， 使 得 当 样本 线性 不 
可 分 时 ， 能 找到 使 分 类 错误 最 小 的 一 条 直线 ? 这 些 问 题 留 给 读者 进行 课外 研究 和 实验 。 


习题 410 感知 器 实现 “ 异 或 ” 


绘 出 下 列 输入 数据 并 找 出 一 条 分 割 线 ， 说 明 单个 神经 元 无 法 做 出 “ 异 或 ”决策 。 对 输入 
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(0,1) 和 (1,0) 要 产生 正 响应 ， 对 输入 (0,0) 和 (1, 1) 要 产生 负 响应 。 





| 感知 器 学 习 算法 编 各 
编程 实现 对 任意 d 维 特征 向 量 x 的 感知 器 学 习 算法 。 用 2D 向 量 进行 测试 ， 并 说 明 它 能 够 学 
习 OR 门 和 AND 门 ,但 无 法 学 习 XOR 门 。 在 下 列 两 类 合成 的 3D 样 本 上 进行 测试 : 类 别 1 是 第 一 
个 卦 限 (ay. x GAWE) 内 的 一 些 随机 点 集 ， 类 别 2 是 其 他 任意 卦 限 内 的 点 集 。 


Class 1 = 

Class 2 = 

Initial gain= 

Limit to number of passes= 5 

Number of samples in Classl= 4; Number of samples in Class2= 4 


Training phase begins with weights: 一 1 


Pattern Vector X = 
Input Weights: 
Output Weights: 


pattern vector x = 
Input Weights: 
Output Weights: 


Weight Vector is: 1.25 1.25 Classification for Class 


Input Vector x / Response / Error? 


if 0 OWS —0.375 
aL: 0.5 0 —0.375 
1 0 0 -1 
2 0.25 0.25 =0.375 


Weight Vector is: -1 1525 1.25 Classification for Class 


Input Vector x / Response / Error? 


Errors for Classi: 0 Errors for Class2: 0 
Final weights are: -1 1.25 25 





图 4-18 计算 机 感知 器 学 习 程序 的 输出 ， 学 习 两 个 线性 可 分 类 别 间 的 线性 判别 决策 
4.13.2 多 层 前 向 网 络 

前 向 神经 网 络 是 人 工 神 经 网 络 的 一 种 特殊 类 型 。 网 络 中 的 每 个 神经 元 都 位 于 某 层 ! 上 。 层 ! 
上 神经 元 的 输入 来 自 层 一 1 上 的 所 有 神经 元 的 输出 , 层 的 输出 又 是 层 ! + 1 上 所 有 神经 元 的 输入 ， 
见 图 4-19。 可 以 将 最 低层 即 第 1 层 神 经 元 的 输入 作为 传感器 的 输入 ， 将 最 高 层 L 层 神经 元 的 输 
出 作为 分 类 结果 。 当 输出 y[c] 最 高 时 ， 则 认为 是 类 别 c; 或 者 所 有 的 输出 可 认为 是 一 种 模糊 分 
类 的 结果 。 层 1 和 层 L 之 间 的 神经 元 称 为 隐 层 神经 元 。 由 于 任何 一 层 到 它 的 前 一 层 没有 反馈 ， 
”所 以 称 为 “前 向 ”"。 因 此 ，ANN 的 工作 类 似 于 组 合 电路 ， 它 的 输出 是 根据 输入 算出 的 ， 而 没 
有 利用 对 先前 输入 序列 的 记忆 。 
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| 算法 4.3 两 个 线性 可 分 类 别 的 感知 器 学 习 算 法 : 计算 权 值 向 量 w ， 区 分 类 别 1 和 类 别 2 
S1 和 S2 分 别 是 n 个 样本 的 集合 。 
gain 是 当 x 被 错 分 时 调整 w 的 比例 因子 。 
max_passes 是 学 习 所 有 训练 样本 的 最 大 遍 数 。 
procedure Perceptron_Learning(gain, max_passes, S1, S2) 
{ 
input sample sets S1 and S2; 
choose weight vector w randomly 
// 设 NE 是 错 分 类 的 样本 总 数 。 
NE = check_samples (S1, S2, w); 
while (NE > 0 and passes < max_passes ) 
{ 
training_pass (S1, S2, w, gain); 
NE = check_samples (S1, S2, w); 
gain = 0.5*gain; 





passes = passes + 1; 
} 
report number of errors NE and weight vector w; 
} 
procedure training_pass (S1, S2, w, gain); 
{ 
for i from 1 to size of Sk 
{ 
// 标 量 积 或 点 积 " 计算 AN 。 
take next x from S1; 
if (wox > 0) w = w- gain «x; 
take next x from S2; 
if (wox < 0)w = w + gain *x; 
} 
| J 
前 面 的 习题 说 明了 单个 的 人 工 神经 元 可 以 实现 等 同 于 AND、OR 和 NOT 逻 辑 门 的 运算 。 这 
意味 着 神经 元 的 前 向 层 可 以 实现 任意 的 逻辑 函数 。 这 种 网 络 功能 强大 ， 能 模拟 许多 计算 机 程 
序 的 行为 。 而 且 由 于 神经 元 不 局 限于 布尔 值 ， 它 们 能 表示 d 维 空间 非常 复杂 的 几何 划分 ， 因 此 
能 从 训练 样本 中 自 适 应 地 学 习 这 种 结构 。 图 4-20 说 明 前 向 神经 网 络 如 何 进 行 异 或 计算 ， 这 一 
点 对 于 单个 神经 元 是 不 可 能 的 。 像 习题 中 那样 ， 第 1 层 神经 元 实现 AND 和 OR 功能 。 最 后 一 层 
只 有 一 个 神经 元 ， 它 的 权 值 向 量 为 w = [0, -1, 1]， 当 且 仅 当 ~1xi + 1% 为 正 时 输出 为 1。 为 了 明 
白 多 层 ANN 是 怎样 实现 复杂 样本 集 的 几何 结构 的 ， 读 者 应 当做 后 面 的 习题 。 








KA Ral | 93 


y[1] 
x[0] 


y[2] 
x[1] 


yin] 





level] = 1 level 1 = 2 level / = 3 
输入 层 隐藏 层 输出 层 


图 4-19 多 层 前 向 人 工 神经 网 络 。 层 1 上 神经 元 的 输入 来 自 层 /-1 上 的 所 有 神经 元 的 输出 ， 
其 输出 又 是 层 1+ 1 上 所 有 神经 元 的 输入 


XOR(x1, x2) 





x, XOR 
0 


x 
0 





0 
和 习题 一 样 第 1 层 神 1 
经 元 实现 AND 和 OR 1 


图 4-20 利用 前 向 人 工 神经 网 络 实现 XOR 
在 学 习 过 程 中 ， 对 于 一 系列 样本 ， 前 向 神经 网 络 通过 调整 权 值 进 行 学 习 。 称 为 反 向 传播 
工法 的 学 习 方法 ， 从 输出 层 向 输入 层 反 向 传播 分 类 错误 。 为 了 使 输入 /输出 关系 平滑 ， 采 用 的 
是 sigmoid 传 输 函 数 而 不 是 用 阔 值 控制 输出 。 反 向 传播 算法 的 实现 和 使 用 可 以 在 参考 文献 中 找 
到 。 近 来 ， 反 向 传播 算法 与 其 他 学 习 算法 在 不 同方 面 的 成 功 应 用 给 模式 识别 和 机 器 学 习 领域 
注入 了 新 的 活力 。 读 者 可 查阅 文献 学 习 其 他 类 型 的 网 络 以 及 它们 的 诸多 应 用 。 


用 ANN 实 现 2D 三 角形 分 类 结构 
构造 一 个 前 向 人 工 神经 网 络 ， 对 于 落 在 三 角形 (顶点 是 (3, 3), (6, 6) 和 (9, 1)) 中 的 2D 点 x， 
它 的 输出 是 1; 对 于 落 在 三 角形 之 外 的 所 有 2D 点 ， 它 的 输出 是 9。 利用 阶 跃 函数 G(x)。 提 示 : 
在 第 1 层 上 采用 三 个 神经 元 来 建立 类 别 的 边界 ， 即 三 角形 的 边 ; 第 2 层 用 一 个 神经 元 对 第 1 层 的 
三 个 输出 进行 综合 。 


习题 4.13 用 ANN 实 现 三 类 别 的 分 类 


说 明 如 何 用 2 层 前 向 网 络 ， 识 别 下 列 不 相交 类 别 的 2D 输 入 向 量 。 类 别 1 的 向 量 在 三 角形 内 ， 
类 别 2 的 向 量 在 正方 形 内 ， 类 别 3 的 向 量 在 五 角形 内 。 利 用 上 一 个 习题 的 结果 ， 说 明 存在 一 个 
ANN 可 以 识别 每 个 类 别 与 其 他 两 个 类 别 (不 需要 利用 具体 的 直线 或 公式 ， 只 需 调用 trangle、 
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square 和 pentagon 子 网 络 即 可 ) 第 2 层 的 输出 就 是 第 1 层 输 入 向 量 的 类 别 。 


4.14 参考 文献 
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著作 覆盖 了 除 统计 模式 识别 之 外 的 句法 和 结构 模式 识别 方法 。 关 于 人 工 神经 网 络 全 面 而 简要 
的 介绍 可 以 在 Jain 等 人 (1996) 的 综述 中 找到 ， 更 广泛 的 内 容 可 参见 Haykin (1994), Hertz% 
人 (1991) 以 及 Schurmann (1996) 的 著作 。Tanimoto (1995) 的 著作 结合 其 他 学 习 机 制 ， 是 
一 篇 很 好 的 神经 网 络 方面 的 著作 ， 它 还 说 明了 怎样 利用 句法 特征 作为 输入 ， 用 LISP 语 言 实现 
了 感知 器 学 习 和 反 向 传播 算法 。 关 于 感知 器 能 做 什么 的 理论 研究 ， 读 者 可 参考 Minsky 和 
Papert (1989) 的 著作 或 者 1969 的 原始 版 本 。 
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第 5 章 图 像 滤波 与 增强 


” ”本章 讨论 图 像 增 强 的 方法 。 图 像 增 强 可 以 提高 图 像 的 视觉 效果 ， 也 有 利于 进一步 的 自动 
处 理 。 增 强 可 以 指 减少 图 像 中 的 噪声 ， 也 可 以 指 强 调 或 抑制 图 像 中 的 某 些 细节 。 第 1 章 已 经 介 
绍 了 图 像 滤波 的 两 种 方法 。 第 一 ， 在 细菌 图 像 中 ， 从 大 的 均匀 区 域 中 去 除 孤 立 的 黑色 或 白色 
像素 点 。 第 二 ， 利 用 反差 算 子 增强 图 像 中 不 同 目标 的 边界 ， 即 提高 目标 和 背景 的 对 比 度 。 

本 章 主要 是 图 像 处 理 (image processing) 方面 的 内 容 ， 所 有 的 方法 都 是 对 输入 图 像 进 行 处 
理 ， 并 生成 新 的 输出 图 像 。 其 他 经 常用 到 的 相关 术语 有 滤波 (filtering)、 增 强 (enhancement) 
或 调整 (conditioning )。 图 像 中 包含 着 要 抽取 的 信号 或 结构 ， 也 包含 我 们 不 感 兴 趣 或 不 想 要 的 
干扰 ， 这 些 干扰 要 想 办 法 去 掉 。 图 像 运 算 时 ， 可 以 针对 单个 像素 或 者 针对 像素 的 局 部 邻 域 。 我 
们 已 经 知道 如 何 把 像素 标记 为 目标 点 或 者 背景 点 、 边 界 点 或 者 非 边 界 点 。 

图 像 处 理 的 理论 和 方法 足够 写 好 几 本 书 ， 这 里 仅 详 细 介 绍 经 典 的 图 像 处 理 方 法 。 多 数 方 
法 ， 都 是 根据 输入 图 像 中 对 应 像素 的 邻 域 计算 输出 图 像 的 像素 值 。 但 有 的 图 像 增强 方法 是 全 
局 性 的 ， 即 根据 输入 图 像 的 所 有 像素 计算 输出 图 像 。 两 个 最 重要 的 概念 是 : (1) 将 图 像 邻 域 
与 模式 或 模板 进行 匹配 (相关 性 (correlation )) ; (2) 卷 积 (convolution )， 可 以 实现 多 种 
滤波 运算 的 一 种 简单 方法 。 

5.1 图 像 处 理 

在 讨论 方法 之 前 ， 先 看 看 存在 哪些 问题 需要 进行 图 像 处 理 。 以 下 是 两 大 类 问题 。 
5.1.1 改善 图 像 质量 

* 在 非洲 的 狩猎 旅行 中 ， 你 拍摄 到 一 张 狮子 追逐 羚羊 的 照片 。 不 巧 的 是 ， 太 阳 位 于 被 报 物 

体 的 后 方 ， 因 而 使 得 图 片 的 光线 显得 过 上 暗 。 增 加 低 亮度 像素 点 的 亮度 ， 保 持 高 亮度 点 不 

变 ， 这 张 照片 就 可 以 得 到 改善 。 

。 一 张 老 照片 有 一 条 长 的 白色 划 痕 ， 但 其 他 部 分 完好 。 上 照片 可 以 变 成 数字 图 像 ， 并 去 除 划 

痕 。( 参 见 图 5-1) 

* 扫描 纸 质 文档 并 转化 成 文本 文件 。 在 进行 字符 识别 之 前 , 需要 从 背景 中 清除 噪声 像素 点 ， 

字符 中 丢失 的 信息 也 要 进行 填充 。 
5.1.2 检测 低层 特征 

"生产 直径 3mm 的 电线 、 要 用 到 视觉 传感器 测量 电线 直径 的 反馈 信息 。 利 用 边缘 算 子 确定 

电线 两 边 的 位 置 ， 边 缘 算 子 能 够 准确 地 识别 电线 和 背景 之 间 的 边界 

* 汽 车 自动 驾驶 系统 ， 通 过 监测 高 速 公路 上 的 白 线 实现 自动 驾驶 。 在 前 视 摄像 机 的 视频 帧 

中 ， 通 过 找到 对 比 度 相 反 、 方 向 相同 的 两 条 边线 ， 就 可 以 检测 出 两 条 白 线 。 

* 把 蓝图 转化 成 CAD (计算 机 辅助 设计 ) 模型 。 其 中 需要 把 蓝图 上 的 直线 转化 为 图 像 中 约 

一 个 像素 宽 的 瞳 条 纹 。 

本 章 主要 讨论 图 像 增 强 和 图 像 恢复 ( 见 图 5-2) 的 传统 方法 。 开 始 之 前 先 定义 两 个 概念 。 


O 








( 左 ) San Juan 原 图 中 的 划 痕 被 去 除 
(中 ) Alaskan Pipeline 的 图 片 亮度 作 了 重新 调整 后 表现 出 更 多 的 细 i 
E) 飞机 零件 的 图 像 ， 进 行 了 边缘 增强 ， 有 利于 自动 识别 和 测量 





图 5-2 ( Shaoyun Chen 和 Anil Jain 提 供 ) 


( 左 ) 原始 的 指纹 图 
(中 ) 纹路 检测 及 细 化 后 的 增强 图 像 
( 右 ) 细微 点 特殊 特征 的 识别 ， 可 与 数据 库 中 上 百 万 个 指纹 图 像 进行 匹配 


定义 39 人 或 机 器 利用 图 像 增强 算 子 ， 提 高 图 像 中 重要 细节 或 目标 的 可 检测 性 。 这 
样 的 运算 包括 去 噪 、 平 滑 、 提 高 对 比 度 以 及 边缘 增强 。 


定义 40 图 像 恢复 试图 将 一 幅 受 损 图 像 恢复 到 理想 状态 。 只 有 在 理想 图 像 形成 和 图 
像 损坏 的 物理 过 程 能 够 被 理解 和 建 模 的 情况 下 ， 图 像 恢复 才 有 可 能 。 恢 复 过 程 与 损 
坏 过 程 相 反 ， 可 以 将 受 损 图 像 变换 为 理想 图 像 。 


5.2 灰 度 级 映射 
通过 改变 像素 的 亮度 值 来 增强 图 像 是 一 种 常用 的 方法 。 大 多 数 图 像 处 理 软件 工具 ， 都 包 
含 几 种 改变 图 像 外 观 的 方式 ， 它 们 借助 函数 变换 将 输入 的 像素 灰 度 值 映射 成 一 个 新 的 输出 值 . 





BR KAIF B 97 





对 这 种 方法 进行 扩展 ， 由 用 户 指定 几 块 不 同 的 图 像 区 域 ， 并 对 它们 分 别 进行 映射 。 对 灰 度 值 
的 重新 映射 通常 称 为 扩展 (stretching ) ， 因 为 一 般 都 是 将 过 暗 的 图 像 灰 度 值 进行 扩展 ， 使 其 
分 布 在 整个 灰 度 值 区 间 。 图 5-3 说 明 一 幅 图 像 的 亮度 值 被 两 个 不 同 的 映射 函数 扩展 的 结果 。 图 
5-3a 表 示 原 图 以 及 映射 函数 的 常用 形式 ， 图 5-3b 表 示 采 用 函数 flx) = x* 的 亮度 映射 ， 它 对 所 有 
亮度 值 进 行 非 线性 放大 ， 低 亮度 值 的 放大 程度 大 于 高 亮度 值 的 放大 程度 。 采 用 映射 函数 Kx) = 
xT BRA tte % (Gamma) 校正 。 如 果 图 像 的 物理 畸变 已 知 ， 要 想 将 图 像 恢 复 到 原来 的 形式 ， 
伽 马 校正 或 许 是 合适 的 理论 模型 。 在 图 中 情况 下 y = 2.0， 是 一 个 放大 值 。 针 对 图 中 情况 ， 取 
缩小 值 如 Y= 0.3 是 不 实用 的 ， 因 为 场景 中 包含 森林 和 管道 本 身 的 阴影 。 图 5-3c 显 示 的 是 更 复杂 
的 映射 函数 ,通过 交互 方式 进行 确定 。 用 户 利用 图 像 处 理工 具 定义 灰 度 级 映射 函数 g,, = AEn) 
由 用 户 控制 鼠标 在 图 像 上 取 点 。 图 像 工具 根据 用 户 选 择 的 点 拟 合 出 光滑 的 样 条 曲线 。 图 5-3 中 
的 函数 将 一 定 范围 内 的 亮度 进行 扩展 或 扩充 ， 使 输出 表现 出 更 多 的 细节 变化 。 如 果 函 数 f(x) 的 
斜率 大 于 1， 则 在 这 些 亮 度 范 围 内 的 图 像 变 化 就 增 大 。 


1 


Bout 


Bin 





a) b) c) 
图 5-3 图 像 的 亮度 值 被 不 同 映射 函数 扩展 的 结果 。 注 意 不 同 的 场景 
目标 在 不 同 图 像 中 表现 出 的 清晰 度 不 同 
(上 行 ) 亮度 映射 函数 f 
(下 行 ) 对 原 图 进行 变换 后 的 输出 图 像 
a) 原 图 。 偏 暗 的 阿拉 斯 加 管道 图 ， 及 用 的 一 般 的 亮度 映射 函数 
b) fix) = 六 ”的 伽 马 校正 ， 暗 像素 比 亮 像素 得 到 更 多 的 增强 
c) 利用 交互 式 软件 工具 ， 由 用 户 创建 出 上 面 的 映射 曲线 ， 该 曲线 提高 暗 像素 的 像素 值 ， 降低 亮 像素 的 像素 值 
定义 41 ”图 像 点 算 子 (point operator) ， 其 输出 像素 仅 由 输入 像素 决定 ，Out[x, y] = 
flIn[x, y])， 国 数 /可 能 依赖 于 全 局 性 的 参数 。 


定义 42 ”对 比 度 扩展 (contrast stretching) 算 子 是 一 种 点 算 子 ， 利用 输入 灰 度 的 分 段 
光滑 函数 ftIn[x, y) 来 增强 图 像 的 重要 细节 。 


由 于 点 算 子 将 一 个 输入 像素 映射 到 一 个 输出 像素 ， 所 以 可 按 像素 的 任意 顺序 映射 一 幅 图 
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像 ， 或 者 并 行 映射 各 个 像素 。 为 了 使 人 们 更 好 地 得 到 图 形 和 新 闻 方 面 的 服务 ， 特 殊 亮度 映射 ， 
包括 图 5-3 中 的 非 单调 映射 ， 在 图 像 增 强 中 非常 有 用 。 但 在 某 些 领域 ， 如 放射 学 ， 则 必须 要 说 
慎 ， 不 能 改变 有 意义 的 亮度 值 ， 这 些 值 是 专家 和 精密 传感器 仔细 校正 好 的 。 最 后 ， 单 调 灰 度 
级 扩展 ， 对 于 有 些 机 器 视觉 算法 的 性 能 可 能 提高 不 大 (ARER > gi 时 f(g,) >fg1) )， 但 对 
于 人 类 视觉 ， 这 种 增强 效果 还 是 很 明显 的 。 
直方 图 均衡 化 

图 像 增 强 经 常 要 用 到 直方 图 均衡 化 。 该 运算 的 两 个 要 求 是 : (a) 输出 图 像 应 当 包含 所 有 
可 能 的 灰 度 级 ; (b) 输出 图 像 在 每 个 灰 度 级 上 有 大 致 相等 的 像素 个 数 。 要 求 (a) 有 明确 的 
EL, BER (b) 比较 特殊 ， 它 的 有 效 性 必须 赁 经 验 判 断 。 图 5-4 表 示 直 方 图 均衡 化 结果 。 
可 以 看 见 ， 灰 度 级 的 重新 映射 的 确 改变 了 一 些 区 域 的 表 观 。 例 如 拱桥 的 焊 颖 更 容易 看 见 。( 用 
类 似 图 5-3 最 右边 的 映射 效果 会 更 好 ， 为 什么 ?) 脸 部 图 像 剪 切 自 更 大 的 一 幅 图 像 ， 剪 切 窗口 
中 低 亮度 的 像素 不 多 。 要 求 (b) 使 得 大 块 均匀 区 域 (如 天 空 ) 重新 映射 成 具有 更 多 灰 度 级 别 
的 区 域 ， 表 现 出 更 强 的 纹理 。 这 对 于 图 像 解 释 可 能 有 帮助 ， 也 可 能 没有 。 





d 


图 5-4 直方 图 均衡 化 对 灰 度 级 进行 映射 ， 使 输出 图 像 的 像素 值 分 布 在 整个 灰 度 范围 ， 
并 且 每 个 灰 度 值 的 像素 个 数 大 致 相等 。 右 边 是 直方 图 均衡 化 后 的 图 像 


BER (a) 和 要 求 (b) 意味 着 输出 图 像 利用 了 所 有 的 灰 度 值 ，z = zu z = z, …,z = zu ,每 个 灰 
度 级 zx 大 约 被 用 了 9 = (Rx O)/n 次 ， 其 中 R 和 C 分 别 是 图 像 的 行 数 和 列 数 。 为 了 定义 扩展 函数 [， 需 
要 输入 图 像 直 方 图 及 ,[i]。H 叫 表示 输入 图 像 中 具有 灰 度 值 z 的 像素 个 数 。 在 输入 图 像 直方 图 中 
增加 让 至 大 约 计算 了 9 个 像素 ， 通 过 该 方法 找到 第 一 个 灰 度 级 阔 值 。 所 有 满足 灰 度 值 x<n-1l 
的 输入 图 像 像素 在 输出 图 像 中 将 被 映射 成 灰 度 值 x。 阔 值 i 由 下 面 的 计算 公式 定义 : 


ti—l1 ti 
>》 Hali] < 91 < 》 Huli). 
i=l i=l 


# 表 示 的 是 最 小 的 灰 度 级 ， 使 原始 直方 图 最 多 包括 4 个 灰 度 值 小 于 5 的 像素 。 第 kt 个 阔 值 由 
下 面 的 迭代 公式 定义 : 


&—1 tk 
>> Halil < (i +92 +- +496) < 》 Halil. 
iml i=l 
映射 的 一 种 实现 是 查找 表 ， 从 上 述 过 程 中 很 容易 得 到 这 样 的 映射 表 (lookup table). 7E 
计算 上 面 公式 的 过 程 中 ， 只 要 不 等 式 成 立 ， 阔 值 4 就 被 放 入 (可 能 会 重复 地 ) 数组 7T[i]。 这 样 
就 有 图 Blur = Kin) = Tlzi,] ed 
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一 幅 200 个 像素 的 输入 图 像 直方 图 如 下 : H, =[0, 0, 20, 30, 5, 5, 40, 40, 30, 20, 10, 0, 0, 0, 
0, 0]. (a) 利用 直方 图 均衡 化 的 公式 (15 个 灰 度 级 )， 则 输出 图 像 A8) 的 值 是 多 少 ? (b) 对 
有 11) 重 复 问题 (a)。(c) 求 输入 图 像 的 映射 函数 /的 查找 表 形式 7T[i]。 


习题 5.2 直方 图 均衡 化 算法 


用 伪 代 码 写 出 直方 图 均衡 化 的 算法 。 保 证 定义 所 有 用 到 的 数据 项 和 数据 结构 。 


58) 直方 图 均衡 化 程序 
(a) 利用 前 面 习 题 的 伪 代 码 ， 实 现 并 测试 直方 图 均衡 化 程序 。(b) 针对 不 同 的 图 像 ， 对 
处 理 效果 进行 分 析 比 较 。 
经 常会 出 现 这 种 情况 ， 输 出 图 像 的 灰 度 级 范围 大 于 输入 图 像 的 灰 度 级 范围 。 这 样 对 于 任 
意 函 数 /将 灰 度 级 重新 映射 到 整个 输出 范围 是 不 可 能 的 。 如 果 确 实 需 要 一 个 大 致 均匀 的 输出 直 [033 
方 图 ， 可 用 一 个 随机 数 发 生 器 将 输入 值 z 映 射 到 其 邻 域 T[z,]。 上 面 的 过 程 将 2g 个 g 级 像素 映射 
到 输出 灰 度 级 8,， 而 没有 像素 映射 到 灰 度 级 8 + 1。 我 们 可 以 模仿 硬币 落地 的 等 概率 事件 ， 使 
8 级 的 输入 像素 以 相同 的 概率 映射 到 g he, + 1。 


5.3 去 除 小 图 像 区 域 

实际 中 常常 需要 去 除 图 像 中 的 小 区 域 。 一 个 小 区 域 可 能 是 噪声 , 或 者 是 需要 从 图 像 描 述 
中 去 掉 的 低层 细节 。 改 变 单个 像素 的 值 ， 或 者 在 抽取 连通 成 分 后 去 除 小 的 连通 成 分 ， 这 些 都 
是 去 除 小 区 域 的 方法 。 




















为 了 使 输出 的 直方 图 更 均匀 ， 对 随机 函数 有 什么 要 求 ? 


5.3.1 去 除 盐 椒 噪声 

绪论 中 简要 讨论 了 从 均匀 区 域 去 掉 单 个 不 规则 像素 的 方法 ， 在 第 3 章 中 对 这 些 方法 进行 了 
扩展 。 在 亮 区 域内 出 现 单个 暗 像素 ， 或 在 暗 区 域内 出 现 单个 亮 像 素 ， 这 些 都 称 为 盐 椒 噪声。 
这 种 比喻 是 显而易见 的 。 盐 椒 噪 声 是 通过 阔 值 建立 二 值 图 像 的 结果 。 盐 点 对 应 着 在 暗 区 域 中 
的 某 些 像素 ， 这 些 像素 通过 了 为 检测 亮 像素 而 设 定 的 阔 值 ， 椒 点 对 应 着 在 亮 区 域 中 的 像素 ， 
但 低 于 设 定 的 阔 值 。 表 面 材料 变化 、 光照 影响 或 者 帧 捕捉 器 中 数 / 模 转 换 的 噪声 ， 这 些 因素 引 
起 的 分 类 错误 都 会 产生 盐 椒 效果 。 有 些 情况 下 ， 这 些 孤 立 像素 点 不 是 分 类 错误 ,而 是 与 较 大 
邻 域 形成 对 比 的 微小 细节 ， 如 衬衫 上 的 一 粒 纽扣 ， 或 者 一 块 林 间 空地 等 ， 这 些 细节 也 许 对 所 
关心 的 问题 来 说 无 关 紧 要 。 

图 5-5 显 示 从 细菌 的 二 值 图 像 中 去 掉 盐 椒 噪声 后 的 结果 。 用 图 中 下 面 的 模板 对 输入 图 像 进 
行 运算 。 如 果 输入 图 像 中 某 邻 域 与 左边 模板 匹配 ， 则 该 邻 域 变换 成 由 右边 模板 给 出 的 邻 域 。 
该 方法 仅 需要 这 两 个 模板 。 如 果 输 入 图 像 是 经 阔 值 化 或 其 他 分 类 过 程 得 到 的 标记 图 像 ， 则 可 
采用 更 通用 的 模板 。 如 图 5-5 的 最 下 面 一 行 所 示 ， 标记 为 工 的 像素 孤立 于 其 他 标记 为 X 的 8- 邻 
域 像素 ， 输 出 图 像 中 则 将 该 像素 校正 为 X。 LL 是 图 像 中 k 个 标记 中 的 任意 一 个 。 该 图 说 明了 8- 邻 
域 和 4- 邻 域 都 可 用 来 进行 这 样 的 决策 运算 。 在 4- 邻 域 情况 下 ， 不 考虑 4 个 角 的 像素 。 第 3 章 讨论 
过 ， 采 用 不 同 的 邻 域 可 导致 不 同 的 输出 图 像 ， 如 细菌 图 像 情 况 。 从 图 5-5 可 以 看 到 ， 采 用 8- 邻 
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域 和 采用 4- 邻 域 所 产生 的 结果 是 有 差异 的 。 





图 5-5 从 细菌 的 二 值 图 像 中 去 掉 盐 椒 噪声 后 的 结果 。 中 间 一 行 是 二 值 像素 邻 域 去 噪 模板 ， 下 面 
行 是 针对 一 般 标记 图 像 去 除 孤 立 像素 点 的 模板 ，( 剪 切 自 Frank Dazzo 的 细菌 图 像 ) 

(左上 ) 细菌 的 二 值 图 像 CHE) 采用 8- 邻 域 去 除 盐 椒 噪声 的 结果 

(右上 ) 采用 4- 邻 域 去 除 盐 椒 品 声 的 结果 左下 是 8- 邻 域 决 策 模板 

右 下 是 4- 邻 域 决策 模板 
5.3.2 去 除 小 成 分 

第 3 章 讨论 了 如 何 抽取 二 值 图 像 的 连通 成 分 ; 并 定义 了 大 量 的 特征 ， 这 些 特征 根据 构成 成 
分 的 一 组 像素 算出 。 图 像 描述 是 成 分 的 集 
合 ， 每 个 成 分 表示 从 背景 抽取 的 区 域 ， 根 
据 区 域 算出 特征 。 通 过 运算 ， 能 够 根据 算 
出 的 特征 从 描述 中 去 除 任何 成 分 ， 例 如 去 
掉 像素 数量 很 少 的 成 分 或 者 去 掉 非常 细 的 
成 分 。 该 处 理 能 够 去 除 细菌 边界 附近 的 一 
些 噪 声 区 域 。 如 果 不 必 或 者 不 可 能 生成 相 
应 的 输出 图 像 ， 则 可 以 把 小 区 域 从 描述 中 
剔除 。 如 果 必 须 生 成 输出 图 像 ， 就 必须 保 
留 信息 以 便 能 恢复 输入 图 像 ， 并 根据 变化 
的 区 域 对 像素 进行 正确 的 再 编码 。 图 5-6 表 
示 去 掉 盐 椒 噪 声 及 面积 小 于 12 个 像素 的 小 
区 域 后 的 细菌 图 像 。 


5.4 图 像 平 滑 
一 幅 图 像 常常 既 包 含 潜在 的 理想 结构 ， 也 包含 一 些 随机 噪声 或 人 为 干扰 ， 前 者 是 要 检测 和 描 
述 的 , 而 后 者 是 希望 去 除 的 。 例如 一 个 简单 模型 , 均 义 目标 的 图 像 区 域 像素 点 具有 值 8, +N (0, 0), 





图 5-6 
(£) 用 4- 邻 域 模板 去 掉 图 5-5 中 盐 椒 噪声 后 的 细菌 图 像 
(A) 去 除 小 连通 成 分 后 的 图 像 ( 原 图 由 Frank Dazzo 提 供 ) 
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其 中 8, 是 理想 成 像 条 件 下 某 个 期 望 的 灰 度 级 ，N(0, 中) 是 均值 为 0 标准 差 为 0 的 高 斯 噪声 。 图 5-7 
(左上 ) 表示 具有 均匀 区 域 的 理想 棋盘 图 。 理 想 图 像 中 加 入 高 斯 噪声 得 到 中 间 的 含 噪 图 像 ， 注 
意 噪声 值 经 过 处 理 限 制 在 区 间 [0, 255]。 右 上 角 的 图 是 穿 过 图 像 中 单行 的 像素 值 。 





图 5-7 
(左上 ) 棋盘 的 理想 图 像 ， 黑 色 方块 的 像素 值 为 0， 白 色 方块 的 像素 值 为 255 
(中 上 ) 图 像 中 加 入 了 标准 差 为 30 的 高 斯 噪声 
(右上 ) 从 噪声 图 像 的 顶部 开始 第 100 行 的 像素 值 


(左下 ) 根据 图 像 直 方 图 的 谷 值 ， 对 中 上 图 像 阔 值 化 的 结果 ， 出 现 一 些 盐 椒 噪声 。( 中 下 ) 对 每 个 像素 点 用 其 5 x 5 
的 邻 域 平均 化 的 结果 
( 右 下 ) 从 噪声 图 像 的 项 部 开始 第 100 行 的 像素 值 


通过 取 邻 域 平均 值 的 方法 ， 可 以 减少 区 域内 在 正常 亮度 值 上 下 浮动 的 噪声 。 


输出 图 像 [x, c] = 输入 图 像 [r, c] 邻 域 的 平均 值 (5-1) 
+2 +2 

Outlr, c] = (x: Dntictn) /ss (5-2) 
1 一 一 2 j=-—2 


公式 (5-2) 定义 了 一 个 平滑 滤波 器 ， 它 对 输入 图 像 中 的 像素 用 5 x 5 邻 域内 的 25 个 像素 值 
进行 平均 ， 得 到 一 幅 平 滑 的 输出 图 像 。 图 5-7 (中 下 ) 表示 对 棋盘 图 像 应 用 该 方法 的 结果 : 图 
中 右 下 角 的 图 像 行 比 右 上 角 的 输入 图 像 行 更 光滑 一 些 。 该 行 的 结果 并 不 是 只 对 该 行进 行 平均 ， 
而 是 利用 了 图 像 中 5 行 像素 的 值 。 同 时 注意 到 虽然 平滑 图 像 比 原 图 干净 些 ， 但 它 不 如 原 图 清晰 。 

定义 43 ”在 像素 的 一 个 矩形 邻 域内 进行 等 量 加 权 ， 实 现 对 图 像 的 平滑 处 理 ， 这 种 方 

法 称 为 盒 形 滤波 (box filter). 

与 对 所 有 输入 像素 进行 等 量 加 权 不 同 ， 一 种 更 好 的 方法 是 随 着 距 中 心 像 素 I[x.，yq] 的 距离 
的 增加 而 减 小 输入 像素 的 权 。 高 斯 滤波 (Gaussian filter) 采用 的 就 是 这 种 方法 ， 它 是 最 常用 
的 一 种 滤波 器 。 在 5.7 节 中 将 详细 讨论 它 的 特性 。 
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定义 44” 当 进行 高 斯 滤波 时 ， 像 素 [x, 了] 根据 下 式 进 行 加 权 : 


z 
e w 





1 
g(x,y) = coe 
其 中 d=J(x—x, +(y—y,) 是 输出 图 像 中 邻 域 像素 [x, 站 到 中 心 像素 [x。，yd 的 距离 。 


本 章 后 面 的 内 容 ， 将 更 详细 地 讨论 有 关 平 滑 的 理论 和 方法 ， 并 在 同一 个 框架 下 对 边缘 检 
测 进 行 讨 论 。 在 这 之 前 ， 我 们 先 介绍 常用 的 中 值 滤 波 。 
5.5 中 值 滤波 

对 具有 零 均 值 噪声 的 均匀 邻 域 进行 平均 化 时 ， 取 均值 是 对 I[x, y] 的 较 好 的 估计 。 但 当 该 邻 
域 跨越 两 块 区 域 的 边界 时 ， 由 于 两 块 不 同 区 域 的 样本 参与 运算 ,将 导致 边界 模糊 。 流 行 的 赫 
换算 法 是 中 值 滤波 ， 它 用 像素 点 邻 域 的 中 值 奉 代 像 素 点 的 值 。 

定义 45 设 A[i;-0.0-_y 是 含 n 个 实数 的 有 序数 组 ， 则 A 中 各 数 的 中 值 是 A[(n-1)/2]。 


有 时 要 区 分 考虑 n 为 奇数 或 偶数 的 情况 。 当 n 为 奇数 ， 数 组 具有 如 上 定义 的 唯一 中 值 。 当 n 
为 偶数 ,我 们 可 定义 两 个 中 值 ，A[n/2] 以 及 A[n/2-1], 或 者 一 个 中 值 , 即 取 这 两 个 值 的 平均 值 。 
虽然 采用 有 序 排列 来 定义 中 值 ， 在 实际 中 这 n 个 值 并 不 需要 做 全 排序 。 对 著名 的 快速 排序 算法 
进行 修改 ， 使 它 只 对 包含 第 (n+ 1)/2 个 元 素 在 内 的 A 的 子 数组 进行 递归 排序 。 一 且 排 序 支点 元 
素 位 于 原 数组 中 间 位 置 ， 整 个 集合 的 中 值 就 可 知道 。 

图 5-8 说 明 中 值 滤波 既 能 平滑 噪声 区 域 ， 又 能 较 好 地 保持 区 域 间 的 边界 结构 。 如 果 从 白色 
方块 内 靠边 缘 的 地 方 选择 像素 ， 该 像素 邻 域 的 大 部 分 值 可 能 都 是 含 噪 的 白色 像素 。 如 果真 是 
这 样 ， 计 算 输 出 值 时 就 用 不 到 属于 黑色 块 的 邻 域 像素 。 同 样 ， 当 计算 黑色 块 边缘 像素 的 输出 
值 时 ， 其 邻 域 的 大 部 分 值 可 能 是 带 噪声 的 黑色 像素 ， 这 意味 着 计算 输出 值 时 就 用 不 到 属于 白 
色 区 域 的 邻 域 样本 。 与 求 平均 的 平滑 方法 不 同 ， 中 值 滤波 在 平滑 均匀 区 域 的 同时 又 保持 了 边 
缘 结 构 。 中 值 滤 波 也 可 去 除 盐 椒 噪声 以 及 大 多 数 其 他 的 小 型 人 为 干扰 ， 人 为 干扰 使 各 种 噪声 
值 代 替 了 理想 的 图 像 值 。 图 5-9 说 明 如 何 去 掉 结构 化 人 为 干扰 ， 同 时 减少 均匀 区 域 的 变化 并 保 


持 区 域 间 的 边界 。 








(Fe) 含 噪 棋盘 图 像 
(中 ) 取 中 心 像素 5 x 5 邻 域 的 中 值 作为 输出 像素 的 值 
E) 从 图 像 顶 部 开始 的 第 100 行 的 像素 值 ， 请 与 图 5-7 进 行 对 比 
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(£) 输入 图 像 ， 在 四 个 原先 均匀 的 区 域 加 入 了 高 斯 噪声 和 人 工 亮 环 干扰 。 

(Av) 应 用 7 x 7 中 值 滤波 的 结果 

计算 中 值 比 计算 邻 域 的 平均 值 需 要 用 更 多 的 时 间 ， 因 为 必须 对 邻 域 像素 值 进 行 排序 。 而 
且 中 值 滤 波 不 易 通 过 专用 硬件 实现 ， 而 对 于 实时 处 理 来 说 硬件 实现 是 必要 的 ， 例 如 视频 流水 [13 引 
线 的 实时 处 理 。 但 在 许多 图 像 分 析 任务 中 ， 中 值 滤波 在 图 像 增 强 方面 作用 巨大 ， 这 点 时 间 耗 
费 是 值得 的 。 


”改进 的 快速 排序 算法 1 
(a) 从 众多 数据 结构 和 算法 的 教科 书 上 找到 传统 快速 排序 算法 的 伪 代 码 ， 修 改 算法 使 得 
一 旦 确定 中 值 就 返回 。(b) 相对 于 完整 的 排序 算法 ， 确 定 中 值 的 算法 计算 量 是 多 少 ? (c) 用 
一 种 编程 语言 实现 算法 ， 并 通过 样 例 图 像 进行 测试 。 
6 改进 的 快速 排序 算法 2 
利用 上 面 的 快速 排序 算法 来 检测 图 像 函 数 中 的 跳 变 ， 如 在 棋盘 图 像 中 从 黑色 到 白色 方块 
的 跳 变 。 假 设 在 数组 A[n/2] 处 放置 支点 元 素 ， 找 到 了 I[r, c] 的 邻 域 的 中 值 。 说 明 如 何 处 理 数组 
的 其 余部 分 ， 从 而 决定 位 置 [r, c] 的 像素 是 否 位 于 两 块 不 同 亮 度 区 域 的 边界 上 。 
从 输入 图 像 计 算 输出 图 像 
前 面 举例 说 明了 要 进行 哪些 方面 的 图 像 增强 ， 现 在 考虑 如 何 对 图 像 进 行 这 些 运算 。 下 面 
的 通用 算法 表示 ， 用 不 同 的 滤波 器 对 输入 图 像 进 行 增强 ， 并 产生 输出 图 像 。 
算法 5.1 表 示 简 单 的 顺序 计算 过 程 ， 它 以 光栅 扫描 次 序 计 算 输出 图 像 G 的 每 个 像素 ， 并 利 
用 F[r, e] 的 邻 域 计 算 G[r, c] 的 像素 值 。 显 然 ， 可 以 按 任意 顺序 计算 输出 图 像 G 的 像素 ,而 不 必 B 
以 行列 为 序 。 事 实 上 ， 可 以 并 行 计算 。 这 是 因为 输入 图 像 不 会 因为 任何 邻 域 计算 而 改变 。 其 
次 ， 过 程 compute_xsin8_nmeishbpors 可 通过 盒 形 滤波 或 中 值 滤波 的 方法 实现 。 对 于 盒 形 滤波 ， 
过 程 仅 需要 累加 F[r, c] 的 w x h 个 邻 域 像素 的 值 ， 然 后 除 以 像素 个 数 w x h。 为 实现 中 值 滤波 ， 
过 程 可 以 拷贝 这 w x h 个 像素 的 值 到 一 个 局 部 数组 A， 然 后 进行 部 分 排序 得 到 中 值 。 
可 以 使 图 像 中 只 有 h 行 在 主 存 中 同时 存在 。 只 对 中 间 行 r 计 算 输 出 G[r, c. 然后 在 内 存 中 
和 输入 新 的 一 行 ， 代 替 最 旧 的 一 行 ， 计 算 下 一 个 输出 行 GIr, c]。 这 个 过 程 重复 进行 直至 计算 完 
所 有 可 能 的 输出 行 。 多 年 前 ， 当 计算 机 内 存 很 小 时 ， 图 像 数据 主要 存储 在 磁盘 上 ， 很 多 算法 140 
一 次 只 能 处 理 图 像 的 几 行 像素 。 今 天 ， 这 种 程序 控制 方式 仍然 存在 价值 ， 因 为 它 可 以 用 在 图 
像 处 理 板 中 ， 实 现 流水 线 处 理 结构 。 
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算法 5.1 根据 输入 图 像 像 素 F[r,c] 的 邻 域 计算 输出 图 像 像 素 G[r,c] 
F[pe] 是 行 数 为 MaxRow 列 数 为 MaxCol 的 输入 图 像 。 
F 不 随 算法 而 改变 。 
G[r,c] 是 行 数 为 MaxRow 列 数 为 MaxCol 的 输出 图 像 。 
G 的 边界 是 那些 邻 域 不 全 包含 在 G 中 的 像素 。 
w 和 h 是 邻 域 的 宽度 和 高 度 ， 单 位 为 像素 。 
procedure enhance_image(F, G, w, h); 
{ 
for r := 0 to MaxRow - 1 
for c := 0 to MaxCol — 1 
{ 
if [r,c] is a border pixel then G[r,c] := F[r,c]; 
else G[r,c] := compute_using_neighbors (F, r, ¢, w, h); 
}; 
} 


procedure compute_using_neighbors (IN, r, c, w, h) 


í 
using all pixels within w/2 and h/2 of pixel IN[r,c], 


compute a value to return to represent IN[r,c] 


} 


“用 一 种 编程 语言 实现 算法 5.1。 对 盒 形 滤波 和 中 值 滤波 进行 编程 ， 并 用 _ 些 图 像 如 图 5 .9 进 
行 测试 。 


5.6 差分 模板 边缘 检测 


通过 计算 局 部 图 像 区 域 的 亮度 差异 ， 可 以 检测 出 具有 高 对 比 度 的 图 像 点 。 例 如 不 同 目标 
之 间或 者 场景 各 部 分 之 间 的 边界 。 本 节 说 明 如 何 通 过 邻 域 模板 检测 出 这 些 边缘 。 我 们 首先 讨 
论 一 维 信号 ， 这 不 仅 直 观 ， 而 且 也 方便 用 公式 表示 ， 一 维 信和 号 本 身 也 是 非常 重要 的 内 容 。1D 
童 号 可 以 是 2D 图 像 的 行 或 列 。 本 节 末 尾 讨论 更 通用 的 2D 情 况 。 
5.6.1 1D 信 号 差分 

图 5-10 显 示 如 何 利用 模板 计算 信号 的 导数 。 设 信号 S 是 对 函数 /的 采样 序列 ， 那 么 f'(x,) = 
(Axi) 一 fæi- 1))/(xi 一 x- 1)。 假 设 样 本 间距 为 Ax = 1, 对 S 中 的 采样 点 ， 应 用 模板 M' = [-1, 1] 得 
到 输出 信号 S'， 通 过 这 种 方式 来 近似 得 到 f(x) 的 导数 ， 如 图 5-10 所 示 。 如 图 中 所 示 ， 可 以 方便 
地 认为 S 的 值 为 两 样本 点 S 值 之 差 。 如 果 $S 的 绝对 值 较 大 ， 说 明 信 号 变化 迅速 ， 或 者 对 比 度 
较 大 。 信号 S' 本 身 可 以 通过 模板 M' 进 行 二 次 差分 得 到 输出 S"， S" 对 应 着 原始 函数 /的 二 阶 导数 。 
根据 图 5-10 以 及 下 面 的 公式 ， 可 以 得 出 重要 的 结果 : 通过 对 原始 样本 序列 S 应 用 模板 M"， 可 
以 近似 得 出 函数 的 二 阶 导数 。 

S'[i]=—S[i—1]+S[i] (5-3) 








BRERA IG E 105 





模板 M’ = [-1, +1] (5-4) 
S"[i] = ~li] + Si + 1] (5-5) 

= —(S{i] — S[i — 1]) + (Sli + 1] — SE) (5-6) 

= Sli — 1] — 2Sfi] + S[i + 1] (5-7) 

模板 M” = [1, —2, 1] (5-8) 





N N 
\ 7 \N 7 


S= Si, -1] Si] | 


/ 


Noz 


N 


S[i+ 1] - 2S[i] + Sfi 一 1] 
图 5-10 

E) 一 - 阶 差 分 (S) 和 一 阶 差分 (S") 近似 表示 信号 S 的 一 阶 导 数 和 二 阶 导数 

( 右 ) 模板 M' 和 和 M" 表 示 求 导 运 算 

如 果 只 检测 对 比 度 大 的 点 ， 通 常 采 用 对 信号 位 S 和 进行 模板 计算 后 的 绝对 值 。 如 果 这 样 ， 
那么 一 阶 导数 模板 可 以 是 M' = [-1, 1] 或 [+1, -1]， 二 阶 导 数 模板 可 以 是 M"= [+1, -2, 411 [143] 
[-1, +2, -1]。 很 快 将 看 到 ， 对 2D 图 像 也 存在 着 类 似 的 情形 。 当 只 考虑 幅 值 时 ， 认 为 这 些 模 
板 是 一 样 的 ; 当 变 化 符号 也 重要 时 ， 就 认为 这 些 模板 是 不 同 的 。 

另 一 个 常用 的 一 阶 导 数 模板 如 图 5-11 所 示 。 这 个 模板 有 3 个 坐标 ， 以 信号 点 S[] 为 中 心 ， 
通过 模板 计算 信号 穿 过 邻接 值 的 差分 。 由 于 Ax = 2， 如 果 不 把 结果 除 以 2， 将 得 出 高 于 实际 导 
数值 的 估计 结果 。 另 外 ， 这 个 模板 在 理想 跳 变 边缘 处 产生 宽 两 个 采样 点 的 响应 ， 如 图 5-11a~b 
所 示 。 图 5-12 表 示 对 采样 信号 应 用 二 阶 导 数 模板 的 响应 。 如 图 5-12 所 示 ， 信 和 号 对 比 度 可 通过 
零 交 又 检测 出 来 ， 零 交叉 方法 确定 两 相 邻 信号 值 间 变化 的 位 置 ， 并 对 信号 变化 进行 放大 。 一 
阶 和 二 阶 导数 信号 共同 揭示 了 许多 局 部 信号 的 结构 信息 。 图 5-13 显 示 了 如 何 按 同 样 的 差分 思 
想 对 信号 进行 平滑 处 理 ， 下 面 对 平 滑 模板 和 差分 模板 的 一 般 特 点 做 个 对 比 。 

导数 模板 的 一 些 特性 : 

“为 了 在 对 比 度 大 的 信号 区 域 得 到 比较 强 的 响应 ， 导 数 模板 的 坐标 符号 相反 。 

。 导数 模板 的 坐标 和 取 零 ， 使 得 恒 值 区 域 的 响应 为 0。 143 

。 一 阶 导数 模板 在 对 比 度 大 的 点 产生 较 高 的 绝对 值 。 


z 








106 





"二 阶 导数 模板 在 对 比 度 大 的 点 产生 零 交 叉 。 
做 为 对 比 ， 平 滑 模 板 具有 下 列 特 性 : 
* 平滑 模板 的 坐标 都 为 正 ， 它 们 的 和 为 1， 这 样 使 恒 值 区 域 的 输出 与 输入 相同 。 
“平滑 和 去 噪 的 程度 与 模板 的 大 小 成 正比 。 
© 跳 变 边缘 的 模糊 程度 与 模板 的 大 小 成 正比 。 
模板 M=[-1,0,1] 


s | ee 
[ss 


a) 5 是 上 跳 变 边缘 


s Eee 
rs [@[Molo]|o]o]-nl-2lo] oo lo 


b) 3 是 下 跳 变 边缘 


s| | ff 12 | a2 [ 12 | 12 [as | 18 | 21 24 | 24 

[elwlolololslslslsls[ofo 
c) 5, 是 向 上 的 斜坡 

[s| | 22lal2lzl2l2z[z2 

[selu] o]o]o]n]of-njo]ofo]o] 


d) 5 是 亮 脉 冲 或 直线 




















图 5-11 四 种 特殊 信号 的 交叉 相关 结果 ， 利 用 一 阶 导 数 边缘 检测 模板 [- 1, 0, 1]。 
注意 ， 由 于 M 的 坐标 之 和 是 零 ， 恒 值 区 域 上 的 输出 一 定 是 零 

模板 M = [-1, 2 -1] 
TT ee eee 
sleju] olo lolo elo lo 


a) 8 是 上 跳 变 边缘 


eye 
[a lefMyolololo[n]-nlolo]lolo, 


b) 5, 是 下 跳 变 边缘 


[s| | ef ef] Tis Tas [a [24 724 [24] 
[slelm]o]oTo]J-s[o]ofols]o]o] 


c) 5; 是 向 上 的 斜坡 


S] | Jeee eae aa a 
rs Jelm[o lo o [uao loToTo] 
d) 3 是 亮 脉冲 或 直线 
图 5-12 四 种 特殊 信号 的 交叉 相关 结果 ， 利 用 二 阶 导 数 边缘 检测 模板 M[-1, 2, -1。 
由 于 M 的 坐标 之 和 是 零 ， 在 恒 值 区 域 上 的 输出 一 定 是 零 。 注 意 输出 中 出 现 
零 交 又 的 地 方 ， 其 中 对 应 位 置 的 输入 信号 发 生变 化 的 方式 不 同 
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盒 形 平滑 模板 M = [14, 14, 13) 
5 | 2 | 22 [22 12 | 12 | 24 24 | 24 | 24 | 24 | 
DOM Mmmnmmrnicieiries 


a) 5 是 上 跳 变 边缘 
s| ee e pee ee 
[s[e[«fe[o[ele[elwlele|ele| 


d) 3 是 亮 脉冲 或 直线 




















高 斯 平 请 模板 M = [14, 12, 1/4] 


[s] I 12 | 1 12 | 12 24 | 24 | 24 24 
@ | m | 12 [12] 22 [ 22 [15 | 21 24 | 24 24 | 24 


a) 3 古 上 跳 变 边缘 


s| | 1p21212122121212|2 
181422215|212| 22122 


d) 54 是 亮 脉 冲 或 直线 


























图 5-13 

(上 商行) 用 盒 形 模板 [1/3, 1/3, V3] 平滑 跳 变 和 脉冲 干扰 

(下 汕 行 ) 用 高 斯 模板 [1/4, 1/2, 1/4] 平 滑 跳 变 和 脉冲 干扰 
5.6.2 2D 图 像 差 分 算 子 

DRR ARS, y) 的 反差 可 能 在 任意 方向 出 现 。 根 据 积 分 学 ， 我 们 知道 最 大 的 变化 沿 着 
函数 的 梯度 方向 发 生 ， 图 像 平面 的 梯度 方向 为 [2.2] 。 图 5-14 表 明 在 数字 图 像 中 用 离散 近 
似 的 方法 ， 可 以 非常 直观 地 表示 出 这 种 变化 。 通 过 计算 Ulx + 1, y] - x- 1, y])/2 来 估计 位 置 
Tx, y] 处 沿 x 方 向 的 反差 ， 即 用 像素 [x, y] 左 右 邻 域 的 亮度 变化 除 以 Ax = 2 个 像素 单位 。 对 图 5-14 
所 示 的 邻 域 ，x 方 向 的 反差 估计 为 (64 - 14)/2 = 25。 由 于 像素 值 含 有 噪声 ， 并 且 边 缘 可 能 以 任 
意 角度 通过 像素 阵列 ， 因 此 应 该 求 [x, 了 ] 邻 域 的 三 个 不 同 反 差 估 计 值 的 平均 值 。 

af /ax = fe ~ AECE +1, y1- I — 1, y)/2 
+(U[x +1, y— 1] — I{x — 1, y — 1])/2 


— -1, 1D/2 
+U +1, y+ 1] —Ifx y + 1))/2)) (5-9) 


也 就 是 对 第 y 行 及 其 上 下 两 行 在 x 方向 的 反差 进行 等 量 加 权 ， 并 据 此 来 估计 x 方向 的 反差 。 
同样 ，y 方 向 的 反差 估计 如 下 : 
af /ay = fy © 41x, y +1) - Ix, y -1D/2 
+(x - Ly + 1] -I[x-1,y—1)/2 


一 „y — 1)/2 
+(x +1, y+ 1] — Fix +1, y- 1))/2)] (5-10) 
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高 亮度 区 域 f, = (B8 — 12)/2 + (66 - 15)/2 
fy ~ +(65 — 42)/2)/3 
多 亮度 区 域 4 = (13 + 25 + 11)/3 = 
i 


fe = ((65 — 38)/2 + (64 — 14)/2 
+(42 — 12)/2)/3 
= (13 + 25 + 15)/3 = 18 


8 = tan™!(16/18) = 0.727 rad 
= 42° 


IVfI = (16? + 187)"? = 24 





x=] x 2+] 


图 5-14 YF PER PASAY es ORAS ak, GE HR BA, y) 的 梯度 幅 值 和 方向 ， 
来 估计 I[x, 了 ] 反 差 的 幅 值 和 方向 
为 了 节省 计算 时 间 ， 常 常 省 略 除 以 6 的 步 又 ， 这 样 就 得 到 成 比例 的 估计 结果 。 这 两 个 反差 
算 子 模板 在 图 5-15 上 部 用 M. 和 M, 表 示 。 图 像 函 数 的 梯度 ， 通 过 对 像素 [x, y] 的 8- 邻 域 Ns[x, y] 进 
行 模板 运算 估计 出 来 ， 如 公式 (5-11) 至 (5-14) 所 示 。 这 些 模板 定义 了 Prewitt 算 子 ， 这 是 由 
Judith Prewitt 博 士 最 先 提出 的 ， 他 利用 这 些 算 子 来 检测 生物 医学 图 像 中 的 边缘 。 


af 


= © (1/6)(M, o Ne[x, y]) (5-11) 
ax . 
of 
ay ~ (1/6)(My o Ng[x, y]) (5-12) 
4 af? af? 
IVf| ~ is tas (5-13) 
TT 
6 ~ tan (Fx) (5-14) 


在 下 一 节 对 运算 MN 进行 正式 定义 。 在 运算 方法 上 ， 模 板 M 与 图 像 邻 域 N 重 又 ， 这 样 每 个 亮 
度 值 N; 乘 以 权 值 M;， 最 终 对 结果 进行 相 加 。 
图 5-15 的 中 间 一 行 表示 两 个 类 似 的 Sobel 模 板 ，。 Pest jy = Stat, u -HHH 
它们 的 推导 和 含义 都 与 Prewitt 模 板 相 同 ， 只 a 
是 中 间 点 运算 的 权 值 应 该 是 边缘 点 运算 权 值 
的 两 倍 。 
Roberts 模 板 大 小 仅 为 2 x 2。 这 说 明 Roberts Sobel: Terna 
模板 的 效率 更 高 ， 且 更 加 局 部 化 。 这 些 模 板 通 
ERARE, ENRE EEH o oT. ESIA 
邻 域 中 心 的 梯度 估计 值 ， 而 不 是 中 心 像素 。 另 nm- k | o [-1] 
外 ， 算 子 的 实际 坐标 系统 与 标准 的 行 方向 偏离 
45°. Roberts E PAA ENS ERR») BRE» Ai. 
“6 47) Prewitt ; 行 ) Sobel : 
原始 输入 图 像 是 左上 角 的 a 图 ， 由 两 个 略微 不 (下 行 ) Roberts 模 板 
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同 的 Roberts 算 子 得 到 的 输出 如 图 b 和 ce 所 示 ， 图 d 和 e 分 别 表示 仅 利用 图 像 列 方向 和 行 方向 的 亮度 差 
得 到 的 结果 ， 线 示 行 方向 和 列 方向 进行 “或 ”运算 的 结果 。 定 性 地 说 ， 这 是 几 种 小 邻 域 算 子 的 
运算 结果 ， 其 中 检测 出 很 多 边缘 像素 ， 但 也 有 很 多 未 检测 出 来 。 在 带 纹理 的 草地 区 域 也 有 输出 响 
应 ， 但 车 库 的 上 部 信息 丢失 了 ， 因 为 其 亮度 与 天 空 的 亮度 一 致 。 应 该 将 Roberts 算 子 的 结果 ， 与 图 
5-16d ~ f 所 示 的 简单 1D 行 和 列 模板 相 结 合 的 结果 进行 比较 。 在 计算 梯度 幅 值 时 ， 一 般 要 避免 开 
方 运算 。 代 赫 的 方法 是 求 max [Z2 H 或 者 (2-2). 比较 图 5-16b 和 c.f， 
说 明 人 避免 开 方 运算 是 可 行 的 。 如 果 想 知道 实际 梯度 或 梯度 方向 ， 就 必须 慎 用 这 些 估计 方法 。 图 
5-17b 表 示 利 用 Sobel 3 x 3 算 子 计算 均 方 梯度 幅 值 的 结果 ， 图 5-17c 表 示 梯 度 方向 的 编码 。 原 图 中 
的 小 方块 是 8 x 8 像素 ，Sobel 算 子 检测 出 很 多 图 像 边 缘 ， 但 不 是 全 部 。 


a) b) c) 
d) e) f) 


图 5-16 Robert 交 又 算 子 的 应 用 (图 像 由 Ida Stockman## {it ) 


十 











Ff 
dy 








a) 原 图 

b) 两 个 Roberts 模 板 响 应 的 绝对 值 总 和 的 前 5% 

c) 两 个 Roberts 模 板 响 应 的 均 方 值 的 前 5% 

d) y 方 向 边缘 模板 [1, +1] 响 应 的 绝对 值 的 前 2% 
e) x 方向 边缘 模板 [1,+1] 响 应 的 绝对 值 的 前 3% 
f) 图 像 d4 和 e 的 “或 ”运算 结果 。b、c 和 f 相 差 甚 微 





图 5-17 Sobel 算 子 的 应 用 


a) 含 方块 和 圆 环 噪声 的 图 像 
b) 3x3 Sobel 算 子 的 均 方 响应 
c) 用 3 x 3 Sobel 算 子 计 算 的 梯度 方向 编码 
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证 明 Prewitt 模 板 所 提供 的 权 值 ， 实现 了 对 亮度 表面 3 x 3 邻 域 的 最 佳 平面 拟 合 ， 假 设 所 有 9 
个 样本 具有 相同 的 权 值 。 设 3 x 3 图 像 邻 域 的 9 个 亮度 值 I[r + i, c +f); i, j = -1, 0, 1 由 最 小 二 乘 
平面 模型 I[r, c] = z = pr + qe + zo 拟 合 。(9 个 样本 关于 r 和 ec 等 间距 。) 说 明 用 Prewitt 模 板 计算 p 
和 4 的 估计 值 ， 把 > 和 4 作为 亮度 函数 的 最 小 二 乘 平面 拟 合 的 偏 导数 。 


图 5-18b 和 c 表 示 a 中 的 室内 场景 图 像 中 两 行 的 亮度 曲线 。 如 图 和 曲线 所 示 ，b 中 所 示 的 是 下 
面 一 行 的 亮度 ， 它 表明 该 行 穿 过 了 四 块 黑暗 区 域 ,， 即 (1) 左边 椅子 上 的 大 衣 ( 列 20 至 80)，(2) 
位 于 中 间 的 Prewitt 博 士 的 椅子 和 衣服 ( 列 170 至 240)，(3) 最 右边 椅子 的 阴影 ( 列 360 至 370) 
以 及 (4) 电线 ( 列 430)。 注 意 除了 椅子 和 它 的 影子 之 间 的 边界 ， 是 从 亮度 220 每 隔 约 10 个 像素 
缓慢 下 降 到 20 之 外 ， 其 他 暗 像素 和 亮 像 素 之 间 的 转换 非常 突然 。c 中 所 示 的 是 上 面 一 行 的 亮度 ， 
它 表 现 出 该 行 穿 过 画 框 、 垫 纸 和 两 幅 画 时 所 经 过 亮度 的 明显 变化 ， 左 边 的 画 比 右 边 的 画 表现 出 
更 多 的 亮度 变化 。 图 5-18d~f 是 对 原 图 应 用 3 x 3 Prewitt 梯 度 算 子 的 结果 。 对 于 a~c 中 所 示 的 相同 
的 两 个 图 像 行 ， 画 出 了 列 梯度 和 行 梯度 /的 绝对 值 之 和 。Prewitt 运 算 结果 的 最 高 值 与 穿 过 的 主 
要 边界 对 应 得 非常 好 。 但 是 ，d 中 对 应 Prewitt 博 士 所 坐 椅 子 的 地 方 ， 即 介 于 170 和 210 之 间 的 几 
个 中 等 尖峰 脉冲 却 难以 解释 。 如 图 f 所 示 ， 上 面 一 行 的 反差 ， 可 以 进行 类 似 解释 ， 主要 目标 边 
界 与 画 框 和 垫 纸 的 边界 对 应 得 很 好 ， 墙 上 最 左边 的 画 有 许多 亮度 变化 。 一 般 说 来 ， 梯 度 算 子 能 
够 很 好 地 检测 出 孤立 目标 的 边界 ， 尽 管 存在 一 些 一 般 问题 。 有 时 因为 目标 弯曲 或 渐变 阴影 导致 
边界 丢失 。 另 一 方面 ， 反 差 明 显 时 经 常 产 生 几 个 像素 宽 的 边界 ， 后 面 就 需要 一 个 细 化 边界 的 步 
最 。 梯 度 算 子 对 纹理 区 域 也 产生 响应 ， 这 一 点 将 在 第 7 章 详 细 研 究 。 


| Ws | | | 
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e) f) 
图 5-18 
a) Judith Prewitt 的 图 像 ， 其 中 选择 了 两 行 b) 沿 着 下 面 一 行 的 亮度 图 
c) 沿 着 上 面 一 行 的 亮度 图 d) 利用 Prewitt 3 x 3 算 子 得 到 的 内 + 忆 梯 度 图 像 


e) 梯度 图 像 中 下 面 一 行 的 亮度 图 f) 梯度 图 像 中 上 面 一 行 的 亮度 图 
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5.7 高 斯 滤波 与 LOG 边 缘 检 测 
高 斯 函数 在 许多 数学 领域 都 有 重要 的 应 用 ， 包 括 图 像 滤 波 在 内 。 本 节 ， 我 们 重点 讲述 它 
在 图 像 平滑 及 平滑 后 的 边缘 检测 方面 的 应 用 。 


定义 46 标准 差 为 c 的 一 元 高 斯 函数 定义 如 下 ， 其 中 是 比例 因子 : 


g(x) = ce mo? (5-15) 
二 元 高 斯 国 数 定义 为 : ，， 
g(x,y) = ce RF (5-16) 


这 些 公式 与 第 4 章 定 义 的 正 态 分 布 具有 相同 的 结构 ， 其 中 增加 常量 c 是 为 了 保证 曲线 下 的 
面积 为 1。 为 了 建立 滤波 模板 ，c 一 般 取 一 个 较 大 的 数 使 所 有 的 模板 元 素 为 整数 。 高 斯 函数 以 
原点 为 中 心 ， 不 需要 正 态 分 布 中 的 定位 参数 4。 当 信号 或 图 像 中 包含 该 参数 时 ， 图 像 处 理 算法 
将 通过 平移 去 掉 该 参数 。 图 5-19 画 出 一 元 高 斯 函数 ， 以 及 它 的 一 阶 和 二 阶 导 数 ， 这 些 导数 在 
滤波 运算 中 也 非常 重要 。 计 算 导 数 的 公式 参见 公式 (5-17) ~ 公式 (5-22)。 函 数 g(x) 下 面 的 
面积 为 1， 意 味 着 它 适合 作为 一 个 平滑 滤波 器 ， 它 对 恒 值 区 域 无 影响 。g(x) 是 正 的 偶 函数 ， 而 
8 (x) 等 于 g(x) RARA (x) 青 除 以 号 。g"(x) 揭 示 了 更 多 的 结构 信息 。 公 式 (5-21) 说 明 
8"(*) 是 两 个 偶 隙 数 之 差 ， 中间 下 凸 部 分 为 负 ， 该 部 分 x = 0。 由 公式 (5-22) 可 清楚 地 看 到 ， 
二 阶 导 数 的 零 交 叉 发 生 在 x = +o 处 ， 这 与 图 5-19 中 的 情形 是 一 致 的 。 


均值 为 0 标准 差 为 2 的 均值 为 0 标准 差 为 2 的 高 斯 函数 的 
高 斯 函数 g(x) 一 阶 导数 




















-10 -5 0 5 10 
a) b) 
均值 为 0 标准 差 为 2 的 高 斯 国 数 的 高 斯 消 数 g(x)，o = 2， 及 其 一 阶 
二 阶 导数 和 二 阶 导数 
0.25 
02 
0.15 
0.1 
0.05 
0 
—0.05 
- 0.1 
-10 -5 0 5 10 -10 -5 0 5 10 


图 5-19 一 元 高 斯 函数 及 其 一 阶 、 二 阶 导数 
) RYE HO = 2 的 高 斯 函数 g(x) 
) 一 阶 导 数 g'(x) 
) 二 阶 导 数 g"(X)， 就 像 倒 置 的 宽 边 帽 的 截面 边缘 
) 


a 
b 
C 
d) 把 一 个 图 重 得到 一 起 说 明 8(C9 的 拐点 与 8 (0 的 极点 和 8"09 的 零 交 叉 对 应 
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g(x) = 7 ena? (5-17) 
oa 
lay = Z ež (5-18) 
BO) Fin 27 
_ =I g(x) (5-19) 
" _ x? _ 1 em (5-20) 
= (Gee Tea) 
x? 1 5-21 
= 54 8@) — | 8) (5-21) 
x? 1 
= (5 一 =) g(x) (5-22) 
高 斯 滤波 的 某 些 有 用 特性 | 


1. 随 着 逐渐 远离 原点 ， 权 值 逐 渐 减 小 到 零 。 这 表明 离 中 心 较 近 的 图 像 值 比 远 处 的 图 像 值 
更 重要 ; 标准 差 o 决 定 邻 域 的 范围 。 总 权 值 的 95% 包 含 在 2 的 中 间 范 围 内 。 

2. 关于 横 坐 标的 对 称 性 ; 把 函数 翻转 进行 卷 积 运算 ， 产 生 同 样 的 核 。 

3. 其 傅 里 叶 变换 在 频率 域内 表现 为 另 一 种 高 斯 形式 ， 这 意味 着 与 空间 域 高 斯 模板 做 
卷 积 运 算 时 ， 随 着 空间 频率 的 提高 ， 图 像 的 高 频 成 分 逐渐 减 小 。 

4. 一 维 高 斯 函数 的 二 阶 导 数 g"(x) 具 有 光滑 的 中 间 突出 部 分 ， 该 部 分 函数 值 为 负 ， 还 
有 两 个 光滑 的 侧 边 突出 部 分 ， 该 部 分 值 为 正 。 零 交叉 位 于 -o 和 +o 处 ， 与 g(x) 的 揭 
点 和 8 "x) 的 极 值 点 对 应 。 

5. 基于 高 斯 - 拉 普 拉 斯 算 子 的 二 阶 导数 滤波 器 称 为 LOG 滤波 器 。LOG 滤波 器 可 用 两 


2 


个 高 斯 函数 之 差 来 近似 g"(x) = ce 2 -cxe "号 ， 该 式 通常 称 为 DOG 滤 波 器 。 在 中 
间 突 出 部 分 为 正 的 情况 下 ， 必 须 有 a < @。 要 得 到 零 交叉 的 正确 位 置 ，@ 与 6 密切 
相关 ， 并 且 总 负 权 值 与 总 正 权 值 达到 平衡 。 
6. LOG 滤 波 器 特别 适合 检测 两 种 亮度 变化 ， 即 与 中 间 突出 部 分 重合 的 小 斑点 ， 以 及 
与 中 间 突 出 部 分 非常 接近 的 大 跳 变 边缘 。 


理解 了 一 元 高 斯 函数 的 特性 ， 就 可 以 直接 建立 相应 的 2D 函 数 g(x, y) 及 其 导数 ， 只 需 
Ara x+y? 替换 1D 中 的 x 即 可 。1D 形 式 绕 垂 直 轴 旋转 可 得 到 各 向 同性 的 2D 函 数 形式 ， 各 向 
同性 函数 在 任意 过 原点 的 切面 上 具有 相同 的 1D 高 斯 截面 。 其 二 阶 导 数 形式 好 像 一 个 宽 边 帽 或 
称 为 墨西哥 草帽 。 从 数学 推导 上 ， 帽 子 的 空 腔 口 沿 z = g(x, y) 轴 向 上 ， 但 在 显示 和 滤波 应 用 中 
空 腔 口 一 般 朝 下 ， 即 中 间 突 出 的 部 分 为 正 ， 帽 边 为 负 。 

两 个 不 同 的 高 斯 平滑 模板 如 图 5-20 所 示 。 后 面部 分 介绍 边缘 检测 模板 。 
5.7.1 LOG 边 缘 检 测 

LOG 滤 波 器 的 两 个 不 同 模板 参见 图 5-21 和 5-22。 第 一 个 是 3 x 3 的 模板 ， 是 模板 的 最 小 实 
现形 式 ， 能 够 检测 像素 大 小 的 图 像 细 节 。11 x 11 的 模板 ， 对 121 个 输入 像素 进行 集成 运算 后 得 
到 输出 ， 因 此 它 适 合 较 大 的 图 像 特征 ， 而 不 适合 较 小 的 图 像 特征 。 如 果 利 用 硬件 进行 计算 ， 
集成 121 个 像素 要 比 集成 9 个 像素 多 耗费 许多 时 间 。 
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图 5-20 


(Az) 3x 3 近似 高 斯 模板 ， 由 先 阵 乘法 [1, 2, 1]@[1, 2, 1] 得 到 


90 使 最 小 的 模板 元 素 为 1 


设 c = 


2 的 7 x 7 近似 高 斯 模板 ， 对 整数 zx 和 y 利 用 公式 (5-16) 生成 函数 值 ， 


(Ai) & 


2 


a 
fay 
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E OR: 
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图 5-21 


) LOGUE aS HIRE FER, LARS x 3 近似 模板 


(下 行 ) 输入 图 像 及 模板 运算 后 的 结果 


e | em | N | e | 
1 
N TIN 
1 ili 
ajo AIRS aS Tm 
1 | 





2 (Hi A Haralick and Shapiro, Volume I, page 349) 


图 5-22 11 x LIPYLOGIELKR, o 
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设 3 x 3 图 像 邻 域 的 9 个 亮度 值 , 可 用 最 小 二 乘 平 面 模型 Jr,c1=z= pr + qc + zo 很 好 地 拟 合 。 


(9 个 样本 关于 r 和 ec 等 间距 。) 证 明 简单 的 LOG 模 板 | 一 1 | 4 | 一 1 | 对 该 邻 域 产生 零 响 应 。 即 
| 0[-1| 0 


LOG 滤 波 器 对 恒 值 区 域 和 斜坡 变化 都 产生 零 响 应 。 


5.7.2 人 类 视觉 的 边缘 检测 
现在 讨论 人 工 神经 网 络 (ANN) 结构 ， 它 能 够 以 并 行 的 方式 实现 LOG 滤 波 运算 。 人 工 神 
经 网 络 的 行为 与 人 类 视觉 系统 的 一 些 已 知行 为 类 似 。 另 外 猫 和 猴子 的 视觉 系统 产生 的 电信 和 号 也 
与 神经 网 络 的 行为 一 致 。 图 $-23 表 示 对 1D 信 亮度 30 
号 的 处 理 情 况 。 视 网 膜 细 胞 阵列 感 测 到 不 同 
点 的 跳 变 边缘 。 第 1 层 的 细胞 对 第 2 层 的 细胞 
产生 激励 信号 。 每 个 第 1 层 的 细胞 ;和 第 2 层 的 
细胞 j 之 间 的 物理 连接 具有 一 个 连接 权 值 w,， 
在 细胞 j 中 进行 集 算 之 前 ， 这 个 权 值 与 对 应 的 
激励 相 乘 。 细 胞 j 的 输出 是 yy = wx ， 


i=1 


其 中 x 是 第 i 个 第 1 层 细 胞 的 输出 ，N 是 第 1 层 





细胞 的 总 个 数 。( 实际 上 ， 只 需要 计算 与 第 2 o 0 0-1040 0 0 0 Hom 

层 细胞 有 直接 连接 的 细胞 i)。 利用 连接 权 值 ， 亮度 0 亮度 0 

有 可 能 使 得 同样 的 细胞 i 对 细胞 j 输 入 为 正 ， bh 

对 细胞 上 + j 输 入 为 负 ， 这 种 情况 是 常见 的 。 亮度 相差 20 

图 5-23 说 明 ， 对 第 二 层 的 每 个 细胞 ， 其 输出 图 5-23 利用 ANN 结 构 产 生 马 赫 带 效应 。 视 网 膜 细 胞 
为 -a + 2b - c。 这 对 应 模板 [-1, 2, -1]， 权 ( 层 1) 感知 亮度 ， 然 后 激励 更 高 层 ( 层 2) 的 
值 2 用 于 中 间 的 输入 ， 而 对 于 要 抑制 的 输入 a 集 算 细 胞 


和 2 都 用 -1 做 权 值 。 

这 种 结构 可 以 定义 任意 模板 ， 对 于 滤波 或 特征 检测 中 的 交叉 相关 运算 ， 人 允许 以 并 行 方式 实 
现 。 心 理学 家 马赫 (Mach) 注意 到 ， 人 类 感 
知 两 个 区 域 之 间 的 边缘 时 ， 就 好 像 把 边缘 拉 
出 来 以 夸大 亮度 的 差异 ， 如 图 5-23 所 示 。 注 
意 该 结构 和 模板 在 两 个 细胞 之 间 的 边缘 处 产 
生 零 交叉 ， 其 中 一 个 产生 正 输出 ， 另 一 个 产 
生 负 输出 。 马 赫 带 效应 能 改变 连接 面 的 感知 
形状 ， 在 通过 被 遮挡 面 显 示 多 面体 目标 的 计 i 
算 机 图 形 系统 中 ， 这 种 现象 是 很 明显 的 。 图 E524 由 灰 度 值 产生 的 七 个 恒 值 区 域 ， 灰 度 31 + 





5-24 表 示 7 个 恒 值 区 域 ， 灰 度 级 以 步 长 32 为 间 32k， 上 = 1, 7。 由 于 马赫 带 效 应 ， 人 们 感 
隔 从 31 增 加 到 255。 你 能 感到 它 像 3D 媚 格 ， 到 它 像 窗帘 裙 边 或 者 凹 格 
比如 希腊 神 庙 的 陶 立 克 柱 子 吗 ? 


图 5-25 将 图 5-23 扩 展 到 2D 图 像 。 与 集 算 细 胞 j 连 接 的 视网膜 细胞 集合 组 成 细胞 的 感受 野 
(receptive field)。 利 用 二 阶 导数 进行 边缘 检测 ， 每 个 感受 野 有 一 个 中 心细 胞 集合 ， 它 们 相对 
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细胞 /有 正 的 权 值 ww， 还 有 一 个 负 权 值 的 周围 细胞 集合 。 视 网 膜 细胞 b 和 ec 在 集 算 细胞 A 的 感受 野 
的 中 心 ， 视 网 膜 细胞 as 和 d 分 布 在 周围 ， 提 供 抑制 性 的 输入 。 视 网 膜 细 胞 d 在 集 算 细胞 B 的 感受 野 
的 中 心 ， 细 胞 c 分 布 在 周围 。 中 心 权 值 与 周边 权 
值 之 和 应 该 为 0， 这 样 集 算 细胞 在 恒 值 区 域 上 就 
具有 中 性 输出 。 因 为 中 心 和 周边 区 域 都 是 圆 形 的 ， 
所 以 当 直 线形 区 域 边界 以 任意 角度 接近 中 心 区 域 
时 ， 其 输出 都 不 是 中 性 的 。 因 此 每 个 集 算 细 胞 是 
一 个 各 向 同性 的 边缘 检测 细胞 。 另 外 ， 如 果 与 背 
景 颜色 不 同 的 小 区 域 在 感受 野 的 中 心 ， 集 算 细 胞 
也 会 产生 响应 , 因此 该 细胞 也 是 一 个 点 检测 算 子 。 
图 5-21 表 示 最 小 的 LOG 模 板 与 包含 两 块 区 域 的 图 
像 求 卷 积 的 结果 。 图 右边 的 结果 显示 ， 如 何 借 助 
零 交 又 确定 区 域 间 的 边界 。 与 = 2 的 LOG 对 应 
的 11 x 11 模 板 如 图 5-22 所 示 。 小 模板 能 够 检测 到 
小 区 域 间 的 边界 ， 并 对 高 曲率 的 边界 敏感 ， 但 也 
会 对 噪声 纹理 产生 响应 。 大 模板 具有 明显 的 平滑 
效果 ， 只 对 较 光滑 的 大 区 域 间 的 边界 发 生 响 应 。 





图 5-25 LOG 滤 波 器 的 3D ANN 结 构 





给 出 上 面 论断 的 详细 论据 ， 即 图 5-25 所 示 的 集 算 细胞 (a) 对 在 感受 野 中 心 成 像 的 反差 点 
产生 响应 ; (b) 对 两 个 勉强 穿 过 感受 野 中 心 的 大 区 域 之 间 的 边界 产生 响应 。 


5.7.3 马尔 -海尔 德 斯 理论 
KE : 马尔 (David Marr) 和 埃 伦 - 海尔 德 斯 (Ellen Hildreth) 提出 ， 用 LOG 滤 波 器 来 解 
释 人 类 视觉 的 低层 行为 。 马 尔 提出 人类 低层 视觉 处 理 的 目标 是 构造 初始 简 图 ， 初 始 简 图 指 包 
含 线 、 边 缘 和 斑点 的 2D 描 述 。 (对 双眼 得 到 的 初始 简 图 进一步 处 理 ， 以 得 到 场景 的 3D 解 释 。) 
为 得 到 初始 简 图 ，Marr 和 Hildreth 提 出 一 种 基于 LOG 滤 波 器 的 组 织 ， 其 中 LOG 滤 波 器 的 参数 5 
取 4 个 或 5 个 不 同 的 值 。 上 述 数 学 特性 ， 成 功 解释 了 对 人 类 知觉 和 对 动物 所 做 的 实验 结果 。o 较 [155] 
大 的 LOG 滤 波 器 检测 较 宽 边缘 ，o 较 小 的 滤波 器 则 集中 检测 小 细节 。 在 更 高 层次 上 协调 不 同 尺 
度 的 输出 结果 ， 也 许可 以 用 大 尺度 检测 指导 小 尺度 的 检测 。 后 续 工 作出 现 了 很 多 实用 的 尺度 
空间 (scale space) 方法 ， 即 对 不 同 尺度 检测 算 子 的 输出 结果 进行 集成 运算 
图 5-26 显 示 在 两 个 不 同 层次 上 的 高 斯 平滑 结果 。 中 间 的 图 像 很 好 地 表达 了 主要 目标 及 边 
绿 ， 右 边 的 图 像 则 表现 出 更 多 的 细节 及 噪声 。 注 意 轮船 和 沙子 /水 之 间 的 边界 在 中 间 图 像 中 未 
能 体现 出 来 ， 但 在 右边 图 像 中 有 所 体现 。 马 尔 的 初始 简 图 也 包含 对 虚拟 线段 的 描述 ， 沿 图 像 
的 曲线 组 成 相 类 似 的 检测 特征 ， 这 些 特征 构成 虚拟 线段 。 这 些 简 图 可 能 是 虚线 勾 出 的 图 像 、 
一 排灌 木 图 像 等 。 图 5-27 是 一 幅 包 含 虚 拟 线 的 合成 图 像 ， 以 及 两 个 不 同 LOG 滤 波 器 得 到 的 输 [156] 
出 结果 。 这 两 个 LOG 滤 波 器 对 线条 端点 都 产生 响应 ， 一 个 对 线条 的 边缘 也 有 响应 ， 另 一 个 则 
没有 响应 。 在 图 5-28 的 实际 图 像 中 可 看 到 同样 的 道理 ， 该 图 进行 过 阔 值 化 处 理 ， 得 到 图 示 的 
纹理 效果 。 最 近 对 人 类 视觉 系统 和 大 脑 的 研究 进展 迅速 。 研 究 结果 使 对 早期 工作 的 解释 变 得 
复杂 化 ， 这 些 早期 工作 是 Marr 和 Hildreth 基 于 他 们 的 数学 理论 完成 的 。 不 管 怎样 ， 多 尺度 高 斯 
和 LOG 滤 波 器 在 计算 机 视觉 方面 得 到 了 广泛 的 使 用 。 
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图 5-26 ( 原 图 来 自 David Shaffer 1998 ) 
( 左 ) 输入 图 像 。 
(中 ) 用 o= 4 的 高 斯 滤波 器 平滑 后 再 提取 边缘 的 结果 
(A) 用 = 1 的 高 斯 滤波 器 平滑 后 再 提取 边缘 的 结果 。 小 尺度 高 斯 滤波 的 结果 表现 出 更 多 的 细节 和 噪声 





图 5-27 
(E) 线条 端点 形成 的 一 条 虚拟 线 ， 可 能 是 两 张 包装 纸 覆 盖 而 形成 的 
(中 ) 4x4 的 LOG 滤 波 器 对 直线 和 端点 产生 响应 
(AV) 另 一 个 3 x3 LOG 让 波 器 仅 对 端点 产生 响应 





图 5-28 畏 值 化 后 的 图 像 。 条 纹 两 端 形成 的 虚拟 曲线 构成 了 目标 的 边界 ， 这 些 条 纹 线 
可 以 看 成 是 水 平 放置 的 广义 圆柱 体 的 剖面 ( 原 图 来 自 Eleanor Harding) 
5.8 Canny 边 缘 检 测 


Canny 边 缘 检 测算 子 是 一 个 非常 普遍 和 有 效 的 算 子 ， 这 里 有 必要 对 其 做 一 下 介绍 ， 详 细 的 
讨论 放 在 第 10 章 。Canny 算 子 首先 对 亮度 图 像 进 行 平滑 ， 然 后 从 一 个 邻 域 到 另 一 个 邻 域 追踪 具 
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有 高 梯度 幅 值 的 点 ， 从 而 产生 扩展 的 轮廓 线段 。 图 5-29 表示 ， 对 实际 复杂 的 室外 图 像 进行 
边缘 检测 。 图 5-29 中 对 圣路易斯 拱门 的 轮廓 检测 效果 很 不 错 ， 利 用 参数 ca = 1 检测 出 拱门 的 
一 些 金属 缝隙 ， 以 及 树木 的 一 些 内 部 变化 ， 但 采用 o = 4 仅 检测 出 这 些 目标 的 外 部 边界 。 如 
图 5-29 底 部 一 行 所 示 ， 算 子 隔离 出 许多 棋盘 状 的 纹理 元 素 。 为 了 进行 比较 ， 也 给 出 了 采用 
Roberts 算 子 的 结果 ， 其 中 对 梯度 幅 值 采用 较 低 的 阔 值 。 这 个 结果 明显 提取 了 场景 (草地 和 
BE) 中 的 更 多 纹理 元 素 ， 虽 然 其 结构 化 程度 不 如 Canny 的 输出 结果 。 产 生 轮 廓 线段 的 算法 
将 在 10.3.2 节 中 详细 介绍 。 





图 5-29 
(左上 ) 圣路易斯 拱门 的 图 像 (左下 ) 含 纹理 的 图 像 
(中 上 ) 采用 a= 1 的 Canny 算 子 的 检测 结果 (中 下 ) o= 1 的 Canny 算 子 的 检测 结果 
(右上 ) o= 4 的 Canny 算 子 检 测 结果 (AvP) Roberts 算 子 的 结果 ， 选 择 的 阔 值 使 梯度 幅 值 前 20% 的 像素 通过 


5.9 匹配 滤波 模板 * 

模板 对 于 特定 图 像 邻 域 的 响应 ， 与 邻 域 和 模板 的 相似 性 成 正比 。 根 据 这 一 理论 ， 我 们 现 
在 知道 如 何 针 对 特征 设计 模板 ， 只 需要 设计 和 我 们 想 检测 的 特征 相似 的 模板 。 这 种 思想 对 边 
缘 检 测 、 纹 理 检 测 以 及 检测 其 他 的 特殊 模式 如 孔 或 角 点 都 是 有 用 的 。 我 们 先 利用 一 维 信号 来 
引入 这 个 概念 ， 一 维 信号 本 身 也 非常 重要 ， 它 可 以 对 应 2D 图 像 的 行 和 列 或 者 任意 其 他 的 穿 过 
2D 图 像 的 分 割 线 。 有 关 概 念 和 数学 理论 可 以 直接 推广 到 2D 情 况 。 
5.9.1 向 量 空间 

对 于 给 定 的 上 > 1， 含 "个 实数 坐标 的 所 有 向 量 的 集合 构成 一 个 向 量 空间 。 下 面 介绍 实用 的 
癌 量 空间 运算 。 在 研究 分 析 几 何 或 微 积分 时 ， 读 者 可 能 已 经 涉及 了 nm = 2 或 mn = 3 的 向 量 。 对 于 
n= 2 或 n = 3， 向 量 长 度 的 定义 ， 与 从 欧 几 里 得 平面 几何 和 3D 分 析 几 何 中 使 用 的 概念 相同 。 在 
音 号 领域 ， 长 度 与 信号 能 量 有 关 ， 能 量 定义 为 信号 长 度 的 平方 ， 或 者 等 价 于 所 有 坐标 平方 的 
和 。 后 面 会 看 到 ， 信 号 能 量 是 极其 有 用 的 概念 。 

定义 47 信号 5 = [s,, s,,…,s, ] 的 能 量 等 于 上 | = 57 +s? +…+s? 。 
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注意 在 许多 应 用 中 ， 全 范围 的 实 值 信 号 不 会 出 现 ， 因 为 有 时 坐标 不 可 能 为 负 值 。 例 如 ， 

用 12 维 的 向 量 表示 特定 区 域 的 12 个 月 的 降雨 量 ， 该 向 量 就 不 应 该 有 负 坐标 。 类 似 地 ， 图 像 每 
行 的 亮度 值 通常 也 保持 在 一 个 非 负 整数 范围 内 。 但 我 们 将 看 到 ， 这 种 情况 下 向 量 空间 的 概念 
仍然 有 用 。 通 常 为 了 做 出 某 种 解释 会 从 所 有 的 坐标 中 减 去 平均 信号 值 ， 这 就 可 能 将 某 些 坐 标 
值 变 成 0 以 下 。 另 外 模板 中 具有 负 值 也 是 非常 常见 的 。 
用 已 定义 的 向 量 长 度 定义 向 量 空间 
设 U 和 V 是 两 个 向 量 ，u 和 vi 是 实数 ， 表 示 向 量 的 坐标 。a, b, c 等 是 实数 比例 因子 。 

定义 48 对 于 向 量 U = [u;, Uy, °" , u,] 和 V = [vi, Vases Pads 向 量 的 和 是 向 量 V@Y = 

[ Uy + Vi, Up + Vo, ++, Up + Valo 

定义 49 对 于 向 量 Y = [w, vy, … v,] 和 实数 (标量 ) a， 向 量 与 标量 的 积 是 向 量 a V 

= [ av, av… av,]。 


定义 50 对 于 向 量 U [u Uz, t, u,] 和 V = [vi, Va, Vals 向 量 的 点 集 或 者 标量 积 


是 向 量 UoV= [u,v, + zw+…+wvi]。 

定义 51 对 于 向 量 V= [vi, v = ,v,]， 它 的 长 度 或 者 范 数 是 非 负 的 实数 
lVIl= VoV = (viv; + vava + + VV) 

定义 52 当 且 仅 当 UoV = 0 时 ， 称 向 量 U 和 V 正 交 。 


定义 53 ja] BLU = [u,, Un, u,] 和 V = [vi Vas °*° ,之 间 的 距离 ， 等 于 它们 差 的 长 
Æd(U, V) = IIU - VII. 


定义 54 ”7 维 向 量 空间 的 基 ， 由 覆盖 向 量 空间 的 n 个 独立 向 量 {wj，w;，.… ,w,} 组 
成 。 覆盖 性 质 意味 着 任何 向 量 V 可 以 用 基 向 量 的 线性 组 合 表 示 ， 即 V= 
GW Ga,w.O-@a,w,o 独立 性 质 意味 着 任何 一 个 基 向 量 wi 都 不 能 由 其 他 基 向 量 
的 线性 组 合 表 示 。 


上 面 所 定义 向 量 空间 的 特性 
1. U®V = VOU 

2. U@(V@W) = (U®VYOwW 
3. 存在 向 量 O 使 得 对 所 有 的 向 量 V， 有 O@V = V 

4. 对 每 个 向 量 V， 存 在 向 量 (-1)V 使 得 V@(-1)V=0O 

5. 对 任意 标量 a, b 和 任意 向 量 V， 有 a(bV) = (ab)V 

6. 对 任意 标量 a, bP 和 任意 向 量 V， 有 (a + b)V = aV@bV 
7. 对 任意 标量 a 和 任意 向 量 VU 与 Vy， 有 a(U@V) = aU@aV 
8. 对 任意 向 量 V， 有 1V=V 

9. 对 任意 向 量 V， 有 (-1V) oV = -IV 
TT fever aes See 


从 列 出 的 9 个 向 量 空间 特性 中 任意 选择 5 个 ， 并 证 明 它 们 是 成 立 的 。 
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5.9.2 利用 正 交 基 

向 量 空间 的 两 个 最 重要 的 研究 结果 是 : (1) 每 个 向 量 可 用 唯一 形式 的 基 向 量 线性 组 合 表 
示 ; (2) 任何 一 组 基 向 量 都 包含 "个 向 量 。 用 正 交 基 表 示 任 意向 量 V， 有 具 有 更 明确 的 含义 ， 如 
下 面 的 例子 。 

用 基 信 号 的 线性 组 合 表示 信号 的 实例 
考虑 所 有 7 = 3 的 样本 信号 [vi, v2, v3] 的 向 量 空间 。 以 标准 基 来 表示 ， 任 意向 量 V = [v;, 
Vo» Va] = v1 [1, 0, 0]@v,[0, 1, O]@v5[0, 0, 1]。 标 准 基 向 量 互 相 正 交 并 且 具 有 单位 长 度 ， 
这 样 的 基 称 为 标准 正 交 基 。 现在 研究 另外 一 个 基 向 量 集 合 {wi, w, w}, Hw, = [-1, 
0, 1], W2 三 LL, l; 1], W3'= i=, 2= Il] 因为 对 i +j, 有 wiow; = 0, 因此 任意 两 个 基 向 量 是 
交 的 。 它们 恋 yA $ ‘ oe. oa 1 A = = A 
正 交 的 。 将 它们 变换 到 单位 长 度 ， 得 到 新 的 基 | el 1, 0, 1], 万 上 了 x 1,2. u} 
现在 用 正 交 基 表示 信号 8 = [10, 15, 20]. 43-2 [10, 15, 20] 关 于 标准 基 ， 有 
















1 
Sow, = —=(—10 + 0 + 20) 


V2 


1 
S o w = Ee ai 


S o w = 10 + 30-20) 


S = (So wı)wı È (S o w2)w2 @ (S o w3)w3 
S = (10/V2)w; @ (45/V3)ua © Ow; 
IISI? = 100 + 225 + 400 = 725 
= (10/V2)2 + (45/V3)2 十 02 = 725 


后 面 两 个 公式 说 明 ， 当 采用 标准 正 交 基 时 ， 通 过 对 每 个 基 向 量 上 的 分 能 量 相 加 ， 很 
容易 得 到 总 能 量 。 


该 例 说 明 如 何 用 三 个 已 知 的 基 向 量 {wi, ws, ws} 表 示 信 号 [10, 15， 20]， 我 们 已 经 看 到 这 些 
基 向 量具 有 特殊 的 性 质 。 一 般 地 ， 设 任意 信号 5 = [ai, a, a;]=a\w,®a,w,®a,w,, ABZ Sow, = 
4,(W,ow,)®a,(w,ow,)®a,(w3ow,) = ai(wi owi) = a;， 其 中 i # ji, wow=0; i = jit, wiow;= 1。 
因此 ， 正 交 基 是 非常 方便 的 。 通 过 计算 信和 号 在 每 个 基 向 量 上 的 分 能 量 ， 可 以 很 容易 地 得 到 信 
号 的 总 能 量 。 例 如 用 信号 3, = [-5, 0, 5] 来 重复 上 面 的 计算 。 5; 可 以 通过 5 减 去 5 的 平均 信和 号 值 
得 到 ， 即 $ = S@(-1[15, 15, 15])。5; 与 Sow, 相 同 ， 因为 沿 [1, 1, 1] 的 分 量 为 0。5, 仅 仅 是 wi 与 
一 个 标量 的 积 ， 5, = (10/V2)w, =(101V2XQVY2)[-1,0,4]=[-5,0,5] ， 我 们 说 8 和 wj 具有 相同 
的 模式 。 如 果 wi 是 滤波 器 ， 则 它 与 信号 5, 匹 配 得 非常 好 。 从 某 种 意义 上 ， 它 也 与 信号 8 匹配 得 
非常 好 。 进 一 步 拓 展 这 个 思想 ， 但 在 开始 拓展 之 前 ， 要 注意 到 ， 对 mn 维 信号 向 量 空间 ， 存 在 
多 个 不 同 的 有 用 的 标准 正 交 基 。 


a 


(a) 接着 前 面 方 框 内 的 实例 ， ma (zro pii- 表示 向 量 [10， 
14, 15]. (b) 表示 向 量 [10, 19, 10]， 它 与 哪个 基 向 量 最 相似 ?为 什么 ? 














(5-23) 
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从 向 量 和 点 积 的 特性 ， 可 以 得 到 公式 (5-24) 所 示 的 柯 西 - 施 瓦 英 (Cauchy-Schwartz ) 


不 等 式 。 它 的 基本 意思 是 ， 单 位 向 量 的 点 积 必 定 介 于 -1 和 1 之 间 。 这 样 ， 就 得 到 决定 两 向 量 相 


似 性 的 度量 方式 : BU = V， 则 得 +1; BU = -V， 则 得 -1。 用 规范 化 点 积 定义 两 个 向 量 的 夹 
角 。 这 个 夹 角 与 在 2D 或 3D 空 间 中 的 三 角 计算 结果 是 相同 的 。 对 n > 3， 这 个 夹 角 或 它 的 余弦 值 ， 
作为 衡量 两 向 量 相似 性 的 抽象 度量 方式 。 如 果 两 向 量 的 规范 化 点 积 是 0， 则 它们 不 相似 ;如果 
是 1， 则 它们 最 相似 ; 如 果 是 -1， 则 它们 互 为 相反 ， 此 时 是 否 相似 取决 于 实际 问题 。 


5.9.3 柯 西 - 施 瓦 茨 不 等 式 


对 任意 两 个 非 零 向 量 U 和 V， 有 
UoV 
~! < uvi $ Y’ at 


UoV 
定义 55 设 UV 和 V 是 任意 两 个 非 零 向 量 ， 那 么 UV 和 V 的 规范 化 点 积 定 义 为 mA 





wiv 


画 出 下 面 的 五 个 向 量 ， 并 计算 规范 化 点 积 ， 或 者 计算 每 对 向 量 之 间 夹 角 的 余弦 值 。 这 些 
向 量 是 [5, 5]、[10, 10], [-5, 5]. [-5, -5]、[-10, 10]。 哪 一 对 之 间 互 相 垂直 ? 哪 一 对 具有 相 
同 的 方向 ?” 哪 一 对 具有 相反 的 方向 ”将 相对 方向 与 规范 化 点 积 的 值 进行 比较 。 
5.9.4 m xn 图 像 的 向 量 空间 

所 有 具有 实 值 元 素 的 m x 7 矩阵 的 集合 是 维 数 为 mm x n 的 向 量 空间 。 这 里 用 模板 和 图 像 区 域 
来 解释 向 量 空间 理论 ， 并 说 明 如 何 应 用 向 量 空间 理论 。 在 本 节 ， 图 像 模 型 是 在 m x n 个 离散 采 
样 点 1[x, y] 的 图 像 函 数 。 我 们 主要 针对 2 x 2 和 3 x 3 的 矩阵 ， 但 每 种 情况 都 可 以 很 容易 地 推广 到 
任意 大 小 的 图 像 或 模板 。 
5.9.5 2x 2 邻 域 的 Robert 基 

亮度 图 像 的 2 x 2 邻 域 结构 ， 可 以 用 图 5-30 所 示 的 基 来 解释 ， 我 们 将 其 称 之 为 Roberts 基 。 
四 个 基 向 量 中 的 两 个 在 图 5-15 中 表示 过 。 如 下 面 的 习题 所 示 ， 任 意 2 x 2 的 实 值 邻 域 都 可 由 这 
四 个 基 向 量 的 和 来 唯一 表示 。 比 例 因子 的 相对 大 小 直接 表明 图 像 邻 域 和 基 向 量 的 相似 程度 ， 
因而 可 以 用 来 解释 邻 域 结构 。 图 5-30 给 出 了 几 个 例子 。 
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验证 图 5-30 所 示 的 Roberts 基 向 量 是 正 交 的 。 


A 


考虑 所 有 2 x 2 图 像 的 向 量 空间 ， 图 像 的 像素 值 为 实 值 。(a) 确定 a 的 值 ， 使 图 像 pons 


表示 为 四 个 Roberts 基 图 像 W, 的 线性 组 合 。(b) 解释 为 什么 对 任意 的 2 x 2 图 像 总 能 找到 唯一 的 wj。 


假设 2 x 2 图 像 n 具有 能 量 e:/、e,、e3、es， 它 们 分 别 沿 着 四 个 Roberts 基 向 量 W,、W，、 


定义 56 设 U 和 V 是 任意 两 个 非 零 向 量 ， 那 么 UV 和 V 的 夹 角 定义 为 oo si ). 
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W3、W4。 以 a、b、c、d 计 算 四 个 能 量 e 的 公式 是 什么 ? 


恒 值 区 域 an =20/2(v2 ) =10W, © OW, © OW, @ OW, 


跳 变 边缘 三 ow, Bazrw, -WW @ OW, 


跳 变 边 缘 = OW, BMW, © OW; B-4/2 Wy 


直线 aa =8W, ® OW, © OW; 6 8W, 


图 5-30 

(第 1 行 ) 所 有 2 x 2 图 像 的 基 ， 其 中 包含 两 个 Roberts 梯 度 模板 

(第 2 行 ) 恒 值 区 域 与 恒 值 图 像 存 在 倍数 关系 

(第 3 行 ) 垂直 跳 变 边缘 仅 在 梯度 模板 上 有 能 量 

(第 4 行 ) 对 角 跑 变 边缘 沿 匹配 的 梯度 模板 具有 最 大 的 能 量 

(第 5 行 ) 直线 模式 沿 恒 值 模板 Wi 和 直线 模板 W4 具 有 能 量 
5.9.6 3 x 3 邻 域 的 Frei-Chen 基 | 

通常 用 于 图 像 处 理 的 模板 大 小 为 3x 3 识 更 大 。3 x 3 图 像 邻 域 的 标准 基 如 图 5-31 所 示 。 标 
准 基 的 一 个 优点 是 ， 用 标准 基 扩 展 任意 图 像 邻 域 的 方法 是 显而易见 的 。 但 这 种 扩展 对 于 邻 域 
的 2D 结 构 提供 不 了 住 何 信息 。 图 5-32 所 示 的 Frei-Chen 基 包含 一 组 标准 正 交 模板 ， 它 们 对 3 x 3 


邻 域 的 结构 可 以 给 出 简单 的 解释 。 163 
[To[ol [ofifo} [oo [0o[o[o| [ofo]o| 
rofolto| [olojo] [olofo] … [olofo] bolol 
ololojl [loloj Lololo [oiloj [Lolo]: | 
所 有 3 x 3 矩阵 空间 的 9 个 标准 基 向 量 


pon GAA Fo oo 
[5|o|o|-*|o[olo|l+s[oolol+rsHolo 
oioi [ofefo} [ofofo} bolol 


图 5-31 任意 3 x 3 和 矩阵 可 表示 为 不 超过 9 个 的 标准 和 矩阵 的 加 权 和 

(上 行 ) 九 个 基 向 量 

(T) 用 基 表 示 的 一 个 矩阵 

用 Frei-Chen 基 表示 图 像 邻 域 允许 将 能 量 解释 为 梯度 、 波 纹 和 直线 等 。 当 亮度 结构 与 基 向 量 
或 模板 相似 时 能 量 就 较 高 。 每 个 基 向 量 有 一 个 特殊 设计 的 结构 。 基 向 量 W: 和 到 :与 Prewitt 和 
Sobel 梯 度 模 板 相似 ， 基 向 量 W; 和 Ws 与 普通 的 3 x 3 Laplacian 模 板 相 似 。 对 穿 过 3 x 3 邻 域 的 一 像 
素 宽 的 直线 ， 直 线 模板 响应 很 强烈 ; 而 两 波纹 模板 模拟 两 个 互相 垂直 的 波 ， 它们 具有 两 个 波峰 、 
两 个 波 谷 和 三 个 零 交 又 。 由 于 要 求 集合 是 正 交 的 ， 向 量 元 素 与 前 面 孤立 设计 的 模板 略微 不 同 。 
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拉 普 拉 斯 W, = 1/6 


pada ta 
但 值 。 Ws= 13 
[alifi] 


图 5-32 所 有 3 x 3 实 值 图 像 的 Frei-Chen 基 

算法 5.2 计 算 一 幅 二 值 图 像 ， 检 测 出 某 个 给 定子 空间 中 能 量 较 大 的 亮度 邻 域 结构 。 为 了 检 
测 边缘 ， 可 以 根据 沿 着 基 向 量 W,、W, 的 邻 域 能 量 选择 像素 ， 这 通过 设置 $ = {1, 1, 0, 0, 0, 0, 
0, 0, 0} 来 表示 。 将 亮度 邻 域 投 影 到 Frei-Chen 基 向 量 上 ， 计算 例子 如 下 。 
算法 5.2 在 选 定子 空间 内 检测 具有 高 能 量 的 邻 域 
Fir, e] 是 输入 亮度 图 像 ; 算法 不 改变 F。 
S 是 位 向 量 ， 当 且 仅 当 感 兴趣 的 子 空间 包括 Wj 时 ，S[jj = 1. 
thresh ERRE EHEER. 
noise 是 噪声 能 量 级 别 。 
Gir, c] 是 输出 图 像 ， 是 一 个 二 值 图 像 ，G[r, e] = 1 表示 F[r, c] 在 选 定子 空 间 S 中 有 超过 
RARR E. 

procedure detect_neighborhoods(F, G, S, thresh, noise); 

{ 

forr :=0to MaxRow - 1 

for c := 0 to MaxCol - 1 

{ 
if [r, c] is a border pixel then G[r, c] := 0; 





else G[r, c] := compute-using-basis (F, r, c, S, thresh, noise); 
} 
} 
procedure compute_using_basis(IN, r, c, thresh, noise) 
{ 
\NIr, ec] 是 IN 所 中 像素 [r c] 的 3 x 3 邻 域 。 
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average_energy := N[r, c]oW, ; 







subspace_energy := 0.0; 






forj:=1to8 
{ 

if (S[j]) subspace_energy := subspace_energy + (N[r, c]oW,)’ ; 
} 


if subspace_energy < noise return 0; 









if subspace_energy/((N[r, c]oN[r, c])—average_energy) < thresh return 0; 






else return 1; 


} 
利用 Frei-Chen 基 表示 亮度 邻 域 的 例子 


10 | 10 | 10 | 
sezna | | 
| 10] 5 | 5 | 


像 前 面 一 样 ， 利 用 点 积 检测 沿 每 个 基 向 量 的 向 量 分 量 。 由 于 是 标准 正 交 基 ， 总 的 图 
像 能 量 就 是 分 量 能 量 的 和 ，X 的 结构 可 以 用 分 量 来 解释 。 















5+5/2 
N o Wi = —— ~ 4.3; energy © 18 
1 VB rgy 
5+5/2 
N oW, = 7X 4.3; energy ~ 18 
2 VB rgy 






N o W3 = 0; energy = 0 
5/2 — 10 
8 





NoW4 一 =~ —1; energy X 1 





N o Ws = 0; energy = 0 





N o We = 2.5; energy © 6 







N o W7 = 2.5; energy ~ 6 






N o Ws = 0; energy = 0 

N o Wo = 25; energy = 625 
N 中 的 总 能 量 是 NeN = 675, 其 中 625 是 沿 Ws 向 量 方向 上 的 平均 亮度 。 其 他 方向 上 的 所 
有 能 量 是 50， 其 中 的 72% 即 36 是 梯度 基 向 量 Wi 和 W， 上 的 。 倘 若 对 梯度 子 空间 感 兴趣 ， 
则 邻 域 中 心 将 标记 为 一 个 已 被 检测 的 特征 。 











验证 图 5-32 所 示 的 9 个 基 向 量 是 标准 正 交 基 。 





0[0TL 
(a) 以 图 5-32 所 示 的 基 向 量 表示 亮度 邻 域 CEN 。 所 有 的 能 量 都 沿 着 直线 基 向 量 Ws 和 
11010 
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[10[110] 
WHG? (b) 对 于 亮度 邻 域 | 0 | 1 | 0 | ， 重复 问题 (a). 
166 [ol110| 








[10 | 10 | 10 | 
(a) Asani Of aT 所 有 的 能 量 是 如 你 所 期 望 的 那 
Fe [10 | 10 | 10 | 


ojojo] 
沿 着 某 些 基 向 量 分 布 的 吗 ? (b) 对 亮度 邻 域 | 0 | LO ] 的 解释 有 什么 不 同 吗 ? 为 什么 ? (c) 


什么 样 的 图 像 邻 域 仅仅 对 W; 和 Ws 给 出 响应 ? 





编程 实现 利用 Frei-Chen 基 检测 像素 ， 算 法 如 上 所 述 。 允 许 程序 的 用 户 以 9 位 的 字符 串 输 入 
感 兴趣 的 子 空间 S。 用 户 也 可 和 输入 噪声 能 量 级 别 和 阔 值 ， 该 阔 值 决定 在 所 选 子 空间 要 求 的 最 小 
能 量 。 用 实际 图 像 测试 你 的 程序 ， 也 要 用 上 面 习题 所 示 的 测试 模式 进行 测试 。 

5.10 卷 积 和 交叉 相关 #* 

前 面 的 内 容 说 明 ， 检 测 可 以 利用 将 模板 或 图 像 模式 与 图 像 邻 域 相 匹配 的 方法 实现 。 另 外 ， 
图 像 平 滑 也 基于 同样 的 道理 。 本 节 我 们 给 出 交叉 相关 和 卷 积 这 两 种 重要 运算 的 定义 ， 它 们 明 
确 表 示 出 模板 在 图 像 上 的 移动 ， 并 计算 模板 与 每 个 图 像 邻 域 的 点 积 。 

5.10.1 模板 运算 定义 

首先 将 简单 的 图 像 平滑 重新 定义 为 图 像 与 平滑 模板 的 交叉 相关 。 利 用 盒 形 滤波 器 算出 输 
出 图 像 ， 对 输入 像素 邻 域内 的 各 点 进行 等 量 加 权 就 得 到 相应 的 输出 像素 。 这 等 价 于 与 权 系数 
为 二 -的 m x n 图 像 模板 进行 点 积 运算 ， 如 图 5-33 所 示 的 3 x 3 模板 。 假 设 和 /都 是 奇数 ， 除 


2 并 忽略 余数 ， 公 式 (5-25) 定义 了 利用 模板 [x, y] 从 输入 图 像 F[x, J 计算 输出 像素 G[x, yllä 
的 点 积 运算 。 在 这 个 公式 中 ， 模 板 如 以 原点 为 中 心 ， 这 样 [0, 0] 是 模板 的 中 心 像素 。 及 对 FIx， 
站 邻 域 像素 的 加 权 方 式 是 显而易见 的 。 另 一 个 计算 G 中 输出 像素 的 公式 是 公式 (5-26)， 它 是 
[167] 对 公式 (5-25) 中 的 变量 稍 加 改变 得 到 的 ， 它 可 以 利用 偶数 维 的 模板 [i, j) 
定义 57 图 像 F[x, y] 和 模板 HIx, y] 的 交叉 相关 定义 如 下 : 
G[x, y] = F[x, y] ® H[x, y] 
w/2 h/2 


nll T p% F[x +i, y+ j]H[i, j] 


i=—w/2 j=—h/2 







(5-25) 








参见 图 5-35。 
为 了 实现 该 计算 公式 : 

假设 模板 A[x, y] 以 原点 为 中 心 ， 这 时 负 坐 标 是 有 意义 的 ; 
图 像 F[x, y] 不 必 以 原点 为 中 心 :; 

当 及 中 与 F[i] 不 完全 重合 时 ， 结果 G[x, y] 必 须 以 另 一 种 方式 定义 。 
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另 一 种 替换 公式 不 要 求 模板 维 数 为 奇数 ， 但 应 当 看 成 是 整 幅 图 像 的 变换 ， 而 不 只 是 
以 像素 G[x, 7] 为 中 心 的 运算 。 







w-1l h—l 


Glx,y] =} DOF +iyt JAE, j] (5-26) 
i=0 j=0 


36 36 36] 36 36 36 


45 54 |54| 63 63 
36/45 54 |63| 63 72 
45|45 63 63 


在 [7, c] 处 模板 与 
图 像 重 合 





图 5-33 用 3 x 3 盒 形 滤波 器 平滑 图 像 ， 可 以 看 成 是 输入 图 像 邻 域 与 盒 形 模板 的 点 积 运算 ， 
模板 相当 于 一 个 等 值 小 图 像 


假设 图 像 f 只 有 图 像 中 心 的 像素 值 为 1!1， 其 余 全 为 0。F 与 图 5-33 所 示 的 盒 形 模板 做 卷 积 能 
得 到 什么 样 的 输出 图 像 G? 


设计 一 个 模板 ， 检 测 与 X 轴 成 30* 角 的 边缘 元 素 。 模 板 不 应 该 对 其 他 方向 的 边缘 元 素 或 其 
他 模式 产生 强烈 响应 。 
角 点 检测 
(a) 设计 4 个 5 x 5 的 模板 ， 检 测 与 图 像 轴 平 行 的 任意 矩形 的 角 点 。 和 矩形 可 以 比 背 景 亮 或 比 
背景 暗 。(b) 你 的 模板 是 正 交 的 吗 ? (c) 说 明 检测 角 点 的 决策 过 程 ， 并 证 明 其 有 效 性 。 168 
5.10.2 Rize 
定义 58 ”函数 fx, y) 和 h(x, y) 的 卷 积 定义 为 : 


126 RIE 





a(x, y) = f(x, y) * A(x, y) 


= JT fey ha-x,y-y pa ay led. 

卷 积 与 交叉 相关 密切 相关 ， 公 式 (5-27) 对 连续 图 像 函 数 给 出 了 卷 积 的 正式 定义 。 为 了 
定义 积分 并 能 够 实际 使 用 ，2D 图 像 函 数 Ax, y) 和 h(x, y) 在 z 平 面 上 的 有 限 矩 形 外 应 当 具有 和 夫 
像素 值 ， 且 在 其 表面 下 的 体积 是 有 限 的 。 对 on M aren 


于 滤波 来 说 ， 核 函数 h(x, y) 在 某 个 矩形 之 外 
通常 为 0， 该 矩形 要 比 支撑 fx, y) 的 矩形 小 
得 多 。 为 了 对 空间 频率 /进行 全 局 性 分 析 ， ws os * t x 
支撑 /的 矩形 将 包括 /的 所 有 支撑 。 在 选读 的 Pi 
5.11 节 傅 里 叶 分 析 部 分 进行 更 详细 地 介绍 。 
图 5-34 说 明了 对 于 1D 信 和 号 计算 两 函数 的 卷 
Blo(x) MOR. BEER BAC) 首先 相对 原点 翻 
转 ， 然 后 平移 到 点 x， 在 x 处 计算 s(x)。 对 输 p 
入 函数 fx 和 新 的 核 函 数 AMx- 轨 的 乘积 进行 s= [fey a’ — sya 
积分 ， 最 后 得 到 g(x)。 由 于 函数 在 区 间 [a, b] 
外 为 零 ， 积 分 可 限制 到 有 限 的 区 间 。 对 于 数 
字 图 像 ， 卷 积 计算 就 是 求 乘积 的 离散 和 ， 而 
不 是 上 面 定义 的 连续 积分 ， Ei a 和 翻转 平移 后 /的 乘积 之 和 ， 
交叉 相关 将 模板 或 核 直接 平移 到 图 像 点 
[x, 习 ， 而 不 经 过 翻转 ， 如 图 5-35 所 示 。 否 则 ， 它 就 与 卷 积 运算 相同 。 从 概念 上 来 说 ， 不 考虑 
对 核 的 翻转 ， 而 只 是 将 核 放 在 图 像 的 某 个 
位 置 ， 这 样 做 会 更 加 容易 。 如 果 核 是 对 称 
的 ， 则 翻转 后 的 核 与 原先 的 核 是 相同 的 ， 
那么 卷 积 的 结果 就 与 相关 的 结果 相同 。 但 
对 称 主要 是 针对 平滑 模板 和 其 他 各 向 同性 
算 子 的 ， 很 多 边缘 检测 的 模板 是 不 对 称 的 。 
尽管 卷 积 和 交叉 相关 形式 上 不 同 ， 但 由 于 





eae OB 
axb 


图 5-34 计算 信号 fx) 和 核 h(x) 的 卷 积 ， 即 g(x) = fx) 
* 有 h(x)。 对 任意 点 +， 核 h 进 行 翻转 然后 平移 





它们 之 间 的 相似 性 ， 进 行 图 像 处 理 时 常常 Ge] = Fix, y] ® Hp 

认为 它们 都 是 “ 卷 积 ”。 本 书 用 到 的 许多 模 。 图 5.35 计算 图 像 F[x, y] 和 模板 H[x, y] 的 交叉 相关 G[x, 
板 ， 都 假设 在 应 用 于 图 像 前 不 经 过 翻转 。 习 即 GD y]=F[x, yl@HLx, y]。 为 计算 G[x, y], 
规范 化 交叉 相关 ， 将 G[x, y] 除 以 F[x， 7] 和 模板 H[x, y] 中 心 放 在 输入 图 像 点 F[x, y] 的 位 
Hix, y] 的 幅 值 ， 结 果 就 可 以 解释 为 是 F 结 构 置 ， 求 出 F 图 像 值 和 H 上 对 应 权 值 的 乘积 之 和 


和 下 结构 进行 匹配 的 结果 ， 而 不 受 比 例 因 子 
的 影响 ， 这 和 我 们 前 面 讨论 的 一 样 。 


习题 5.25 FETE Hai 


利用 前 面 习题 5.24 的 角 点 检测 过 程 ， 编 写 程序 检测 图 像 中 的 矩形 。 (假设 矩形 的 边 与 图 像 
的 边 平行 。) 第 一 步 应 检测 候选 的 矩形 角 点 。 第 二 步 抽取 含 四 个 候选 角 点 的 子 集 ， 其 中 四 个 角 
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点 根据 几何 约束 组 成 合适 的 矩形 。 第 三 步 是 可 选项 ， 进 一 步 检 查 四 个 角 点 ,保证 候选 矩形 内 
的 亮度 是 统一 的 ， 并 与 背景 形成 对 比 。 如 果 给 一 幅 含 噪声 的 棋盘 图 像 ， 你 的 程序 会 出 现 什 么 
结果 ? 对 一 幅 含 噪 的 棋盘 图 像 ， 如 图 5-7 所 示 ， 以 及 一 幅 带 有 移 形 窗 的 建筑 图 像 ， 如 图 5-42 所 
示 。 用 这 两 幅 图 像 对 你 的 程序 进行 测试 。 










[ofofofoforo)] 
| 0 | 0 ]-5|-5|-5| 0 | 





与 行 导 数 模板 做 交叉 相关 ， 检 测 行 边界 


图 5-36 图 像 与 多 个 模板 进行 交叉 相关 ， 增 强 了 区 域 边界 
(上 ) 二 阶 导数 算 子 在 边界 产生 零 交叉 
(中 ) 列 (x) 导数 算 子 检测 出 列 的 变化 
E) 行 (y) 导数 算 子 检测 出 行 的 变化 








yora 
已 知 H= | 0 |4| 0 | 和 F= ,计算 G = Fe@H。 
BFO jr 
点 扩展 


[11211 
已 知 核 了 = [2 上 5 | 2 | ， 它 与 图 像 F[x, 习作 卷 积 的 结果 是 什么 ? 其 中 FIxw yo] = 1， 其 他 
EGE: Ea 
所 有 像素 为 0。 





假设 函数 h(x) 在 -1/2<x< 1/2 范 围 内 的 值 为 1， 其 他 范围 的 值 为 0。 假 设 函数 fx) 在 10<x 
< 20 范 围 内 的 值 为 1， 其 他 范围 的 值 为 0。(a) 画 出 两 个 函数 /fhh。(b) 计算 并 画 出 函数 g(x) = 
Six) * h(x) 。(c) 计算 并 画 出 函数 g(x) = h(x) * A(x). 
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5.10.3 并 行 计 算 
从 卷 积 的 定义 可 见 ，g(x, y) 的 计算 与 g(x, y) 的 计算 是 独立 的 。 事 实 上 ， 所 有 的 积分 都 

可 以 同时 、 并 行 地 进行 计算 。 另 外 ， 对 单个 值 g(x, y) 计算 的 积分 可 以 同时 构成 所 有 的 乘积 ， 

这 使 高 度 并 行 的 系统 成 为 可 能 。 各 种 计算 机 结构 都 能 够 进行 全 部 或 部 分 的 并 行 运算 。 









点 彩 画 派 以 这 样 的 方式 作画 : 用 画笔 垂直 于 画布 轻 点 ， 每 次 点 出 一 个 彩色 点 。 这 每 个 点 
类 似 于 数字 图 像 中 的 一 个 像素 。 参 观 者 退 后 观察 图 像 ， 将 看 到 一 幅 平滑 的 图 像 。 编 程 实现 这 
种 画 法 。 程 序 应 当 提 供 一 个 颜色 调 色 板 和 其 他 一 些 选项 ， 如 选择 画笔 的 大 小 或 在 轻 点 时 是 否 
用 “或 "、“ 异 或 ”运算 。 运 行 你 的 程序 ， 创 建 一 幅 夜晚 星空 的 图 像 。 程 序 要 能 够 将 所 画 的 图 
像 数 据 存储 成 外 部 文件 ， 这 样 以 后 就 能 接着 修改 这 幅 画 。 





编程 实现 模板 和 图 像 的 卷 积 。 程 序 应 当 从 输入 文件 中 以 同样 的 格式 读 取 图 像 和 模板 。 可 
用 上 个 习题 产生 的 美术 图 片 测试 你 的 程序 。 





在 搜索 地 球 外 智慧 生命 (SETI) 时 ， 和 希望 通过 扫描 深层 空间 能 够 检测 到 感 兴趣 的 信号 。 设 
音 号 S 是 以 二 进 制 表示 的 前 100 个 质数 序列 ，R 是 收 到 的 信号 ， 它 比 S 长 很 多 。 假 设 R 包 含 噪声 并 
且 由 实 值 组 成 。 为 了 检测 S 是 否 嵌 入 在 R 中 ， 交 叉 相关 或 者 规范 化 交叉 相关 能 行 吗 ? 为 什么 ? 


5.11 正弦 波 空间 频率 分 析 * 

傅 里 叶 分 析 在 信号 处 理 中 非常 重要 ， 很 多 书 中 都 讨论 了 健 里 叶 分 析 的 理论 和 应 用 。 我 们 
在 此 只 做 简单 介绍 ， 以 介绍 过 的 向 量 空间 概念 为 基础 。 

数学 家 傅 里 叶 将 海平 面 想像 成 一 组 正弦 波 的 和 。 由 潮汐 或 轮船 引起 的 大 波浪 的 波长 较 长 
(频率 低 )， 由 风 或 坠落 物体 引起 的 小 波浪 的 波长 较 短 (频率 高 )。 图 5-37 的 上 面 一 行 表示 三 个 
纯 波 ， 在 1D 空 间 xe [0, 512] 内 周期 个 数 分 别 为 3、16、30。 下 面 一 行 是 两 个 函数 ， 一 个 是 上 面 
的 三 个 纯 波 之 和 ， 另 一 个 是 前 两 个 纯 波 之 和 。 这 种 多 个 波 的 集合 可 用 来 建立 2D 图 像 函数 甚至 
3D 密 度 国 数 。 

利用 传 里 叶 分 析 ， 把 多 数 实际 表面 或 者 实际 函数 用 正弦 基 来 表示 。 沿 着 基 向 量 的 能 量 可 
以 解释 为 所 表征 表面 (函数 ) 的 结构 。 在 表面 的 大 块 区 域内 有 重复 模式 时 ， 例 如 城市 航 测 图 
像 中 的 街区 ， 大 片 水 域 的 波浪 ， 大 片 森林 或 农场 的 纹理 等 ， 傅 里 叶 分 析 是 比较 实用 的 分 析 方 
法 。 这 种 思想 可 以 扩展 到 整 幅 图 像 ， 或 者 图 像 的 不 同窗 口 ， 将 它们 用 傅 里 叶 基 表示 ， 然 后 对 
图 像 滤波 ， 或 根据 不 同 基 向 量 上 的 图 像 能 量 进行 决策 。 例 如 ， 从 图 像 中 减 去 沿 高 频 正 弦 波 或 
余弦 波 的 成 分 ， 则 可 以 去 除 高 频 噪声 。 等 价 地 ， 在 重 构 空间 图 像 时 可 以 只 增加 低频 波 而 忽略 
高 频 波 。 
5.11.1 EHE 

为 了 直观 ,假设 一 组 标准 正 交 正弦 基 图 像 (或 图 像 函 数 ) E= E, (x,y). XE, kilu. v 
是 整数 ， 确 定 了 基 向 量 的 有 限 集合 。 关 于 参数 4、v 如 何 决定 基 向 量 很 快 我 们 就 会 清楚 ， 但 现 
在 我 们 只 用 单个 下 标 k， 目 的 是 把 注意 力 集中 在 基本 概念 上 。 图 5-37 的 下 面 一 行 表示 由 上 面 三 
个 或 两 个 纯 余 弦 波 相 加 得 到 的 两 个 信号 。 利 用 更 多 的 纯 余 弦 波 能 够 建立 更 复杂 的 函数 。 将 图 
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5-38 HAY = 7a ET AI, EAT FR — TAR. HB MAS-39 PRN RAR. Fl 


用 全 里 叶 基 函 数 E， 任 意图 像 函数 都 可 以 表示 为 Mx, y)= >" aE lx y] 。 


和 前 面 各 节 类 似 ， 


度量 1x, y] 和 Eilx, y] 的 相似 性 ， 以 及 IIx, ?在 特定 成 分 波形 上 的 能 量 。 图 像 处 理 运 算 只 针对 ws 
的 值 而 不 是 亮度 值 I[x, y] 进 行 。 下 面 讨论 三 种 主要 运算 。 


c3(x) : 100 cos(2PI 3X/512) 


c16(x) : 30 cos(2PI 16X/512) 


c30(x) : 20 cos(2PI 30X/512) 
50 


1 
Seou8 8B 
i È 
Beou8 
ieis 和 
E52. ss 
$ 
| 


8 
š 
8 
= 
8 


0 100 200 300 400 500 0 


sum(x) : c3(x) + c16(x) + c30(x) 
150 





图 
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sum(x) : c3(x) + c16(x) 


— 


(上 行 ) 三 个 纯 波 ， 100cos{ 2m). 30c0s{2n 18") A 20co 2r30 | 
512 512 512 


(下 行 左边 ) 三 个 纯 波 之 和 

(下 行 右边 ) 前 两 个 纯 波 之 和 

利用 信里 叶 基 进行 图 像 运算 : 

1. 利用 傅 里 叶 基 ， 可 去 除 图 像 或 信号 
中 的 高 频 噪声 。 信 号 / 污 示 为 D aE o 
频 正弦 的 系数 a 被 置 为 0%， 用 那些 a, # 0 
的 剩余 基 范 数 之 和 来 计算 一 个 新 的 信 叶 - 

2. 传 里 叶 基 可 用 于 抽取 纹理 特征 ， 可 
用 这 些 纹理 特征 对 图 像 区 域 中 的 目标 进行 
分 类 。 用 传 里 叶 基 表 示 图 像 或 图 像 区域 之 
后 ， 可 通过 au 计算 特征 ， 并 用 这 些 特征 进 
行 分 类 决策 。 一 行 行 的 水 面 波 或 庄稼 波 就 
属于 这 样 的 过 程 ， 其 中 确定 频率 和 纹理 区 
域 的 方向 时 要 用 到 au。 

3. 依 里 叶 基 可 用 于 图 像 压缩 。 发 送 者 可 
以 发 送 a 的 子 集 ， 接 收 者 通过 求 已 知 正弦 成 
分 的 和 重 构 近似 的 图 像 。 如 果 需 要 ， 所 有 的 
a 都 可 以 发 送 ， 可 以 按照 能 量 顺序 或 者 按照 
频率 顺序 。 接 收 者 根据 所 得 到 的 内 容 ， 可 以 
在 任意 时 间 终止 传送 。 

我 们 的 目标 是 产生 一 组 可 用 的 图 像 了 


AN 





图 5-38 空间 域 [x, y]_E AY 7s el TE 5% PR ea Be. £ EAH 


公式 100cos(2r (16x/512))+ 100 产 生 ， 沿 着 x 轴 有 
16 个 周期 。 右 下 图 由 公式 100cos(2r (12y/512)) + 
100 产 生 ， 沿 着 y 轴 有 12 个 周期 。 左 下 图 由 公式 
100cos(2m(16x/ 512 + 12y/512)) + 100 产 生 ， 注 意 
左下 图 中 的 波 是 怎么 与 左上 图 和 右 下 图 中 的 波 
对 应 的 。 侍 里 叶 功率 谱 如 右上 图 所 示 
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BME, FARMALL PEA. ARER TERAK S esere 
背景 知识 。 对 于 方形 *y 平 面 ， 假 设 坐 标 系统 的 原点 是 图 像 函 数 的 中 eid 

心 。 数 字 图 像 1[x, y] 由 入 个 采样 点 组 成 。 首 先 ， 建立 一 组 不 同 频 率 aes 
的 正弦 波 作为 连续 信号 f 的 正 交 基 。 如 果 m、n 是 两 个 不 同 的 整数 ， 
那么 带 频率 参数 的 两 个 余弦 波 在 区 间 [-T, 如 上 是 正 交 的 。 读 者 通过 


入 


完成 下 面 的 习题 ， 验 证 函数 集 {1, sin(mx), cos(nx), …} 在 区 间 [一 六 n) 和 See 
上 是 一 个 正 交集 。 余 弦 波 的 正 交 性 服从 公式 (5-28)， 因 为 对 所 有 的 








整数 k，sin(kn) = 0。 图 5-39 F(R eA Bex, y] = 

r _sin(m-n)n  sin(m+n)(-T) 100E, + 30E, + 10E,, 

| cos(m®)cos(n6)d0 = 2(m—n) F ntn) (5.238 其 中 EE 如 图 5-38 的 右 

=0 对 于 m? +n? 下 图 所 示 ， E wE 

LEIA, EE 

余弦 函数 的 N 个 空间 对 称 样本 组 成 一 组 向 量 ， 这 组 向 量 在 前 面 下 图 所 示 《这 可 能 

定义 的 点 积 意 义 上 是 正 交 的 。 是 果园 或 泡沫 填充 
物 的 模型 ? ) 


考虑 定义 在 区 间 xs [x x2] 上 的 所 有 连续 函数 。 证 明 函 数 集合 fg, h,… 和 标量 a, b, c, … 一 
起 组 成 一 个 向 量 空 间 ， 证 明 下 列 性 质 : 


f@gs=g®f (f @8) Bh=f O(g @h) 
c(f ®g) =cf Beg (a+b)f =af bf 
(ab) f = a(bf) lf=f 
Oof=0 


ae Es 


类 似 上 面 的 习题 ， 对 于 区 间 xe [xu x;] 上 的 连续 函数 空间 ， 定 义 点 积 和 对 应 的 范 数 如 下 : 


i 
fog = {fea Ifl= Vfof (5-29) 
证 明 点 积 具有 如 下 四 个 性 质 : 
(f @8)oh= (fo8)+(goh) 
fof>0 
fog=gof 


(cf) og =c(f og) 


习题 5.34 奇 函数 和 偶 函 数 


WR- = fox), WARES. WRO = -ftx)， 则 该 函数 是 奇 函数 。(a) 证 明 
cos(mx) 是 侦 函 数 ，sin(n) 是 奇 函数 ， 其 中 m、n 是 非 0 整数 。(b) 设 /hg 分 别 是 在 区 间 [L, L] 
L 
上 的 奇 函数 和 侦 函 数 ,证明 | Sgwd, 
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”利用 习题 5.33 给 出 的 点 积 定义 ， 证 明 下 列 正弦 函数 /的 集合 在 区 间 [_t n EEEN. 
Sox) = 1; fi) =sin(x); fx) = cosa); f(x) = sin(2x); fix) = cos(2x); f(x) = sin(3x); 

F(x) = cos(3x); = 

5.11.2 2D 图 像 函数 

定义 59 复 值 图 像 函 数 


E,, JW y) =e =J 2E (EEV) (5-30) 
=COS (27 (ux + vy)) — jsin(2n (ux + vy)) 


其 中 u 和 v 是 图 5-38 所 示 的 空间 频率 参数 ，j= -1 。 
利用 复 值 有 其 方便 之 处 ， 这 样 对 具有 同样 频率 的 余弦 波 和 正弦 波 分 别 进行 计算 ， 其 中 正 
芒 波 与 余弦 波 具 有 相同 的 结构 ， 但 相位 相差 1/4 波 长 。 当 其 中 某 个 基 国 数 与 图 像 函 数 高 度 相 关 
时 ， 就 意味 着 图 像 函数 在 频率 和 v 上 具有 较 高 的 能 量 。 傅 里 叶 变 换 将 图 像 函数 转换 成 相关 参 
数 的 阵列 。 我 们 首先 讨论 积分 形式 ， 然 后 给 出 数字 图 像 的 离散 和 形式 。 
定义 60 2D 傅 里 时 变换 将 一 个 空间 域 函数 Kx, y) 变换 成 w v 频 域 函 数 
F(uv)= If" |” fa, y)E, 0x yar dy 
= [Ff et ax dy 
mods (5-31) 
ABS A — ERRE. RP BI, TRIE EGE. AGREE PORE: 积分 
[JI ylardy 的 值 是 有 限 的 ， 而 且 在 某 个 矩形 R 之 外 有 tx, y) = 0， 则 公式 中 的 无 穷 大 积 


分 限 可 以 用 R 的 上 下 限 代替 。 另 外 ， 在 R 范 围 内 ，/ 的 极点 个 数 是 有 限 的 ， 而 且 没有 无 穷 大 间断 点 。 
就 我 们 经 常 要 用 到 功率 谱 ， 它 综合 了 相同 频率 成 分 由 7 下 的 正弦 波 和 余弦 波 的 能 量 。 图 
5-38 的 右上 图 表示 功率 谱 。 





FO, O 的 特殊 含义 是 什么 ?其 中 Fu V) 是 图 像 函数 fx y) 的 信里 叶 变 换 。 
定义 61 储 里 叶 功 率 谱 计 算 公 式 为 : 
P(u, v) = (Real(F (u,v))? + Imaginary(F(u, v))? )!/2 (5-32) 


图 5-40 显 示 ，2D 正 弦 波 的 实际 波长 与 沿 各 轴 的 投影 波长 之 间 的 关系 。u 是 沿 着 X 轴 的 频率 ， 
表示 每 单位 长 度 的 周期 数 ，1/u 是 波长 。v 是 沿 着 7 轴 的 频率 ，1/1v 是 波长 。4 是 正弦 波 沿 着 它 的 
中 轴 或 传播 方向 的 波长 。 通 过 以 两 种 不 同方 式 计算 图 5-40 右 图 的 三 角形 面积 ， 得 到 下 面 的 公 
式 ， 该 公式 能 够 帮助 我 们 了 解 功率 谱 提 供 了 哪些 关于 原 图 的 频率 信息 。 

XV + Av? = (1/u)(1/v) 

1 (5-33) 

Vu? + v2 


= 
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假设 图 片 的 宽度 和 高 度 都 为 1 。 在 图 5-38 中 ， 图 的 宽度 方向 有 u = 16 个 周期 ， 所 以 波长 是 

1/u = 1/16。 同 样 ，1/v = 1/12。 应 用 公式 (5-33), 43A = 1/20. 通过 计算 图 5-38 左 下 图 中 波 

的 个 数 ， 我 们 看 到 沿 着 1.4 单 位 长 度 的 对 角 方向 有 27 个 波 ， 于 是 沿 着 2D 波 实际 方向 产生 的 期 望 
频率 是 27/1.4 = 20。 

图 5-41 显 示 图 5$-38 中 的 三 个 正弦 图 像 函 数 功 率 谱 的 主要 响应 。 图 $-38 右 上 图 的 功率 谱 实际 

上 表示 在 三 个 点 产生 的 强烈 响应 ， 而 不 是 一 个 点 。 首 先 注意 到 ，F(0, 0) 是 f(x, y) 的 总 能 量 。 

178| 由 于 图 5-38 的 每 个 正弦 波 的 均值 是 100 而 不 是 0， 它 们 在 0 频率 上 具有 较 大 的 平均 能 量 。 另 外 根 

据 定义 P(-u, -v) = Plu, v) 可 以 明显 看 出 ， 功 率 谱 关于 原点 u = 0，v = 0 对 称 。 图 $-42 显 示 四 个 


真实 图 像 的 功率 谱 。 
功率 谱 不 必 解 释 为 一 幅 图 像 ， 而 是 原 图 的 功率 相对 频率 参数 x 和 "的 2D 显 示 。 事 实 上 ， 光 
学 设备 可 以 计算 这 种 变换 ， 因 此 功率 谱 就 Y A 


可 以 实现 为 一 幅 物理 图 像 。 第 2 章 中 简单 提 
到 了 一 种 传感器 阵列 ， 它 分 成 扁 区 和 环 区 
(参见 第 2 章 图 2-4c 的 ROSA 结构 )。 由 于 旋 
转角 度 时 功率 谱 是 对 称 的 , 如 图 5-42 所 示 ， 
因此 可 用 局 区 来 采样 有 向 功率 ， 用 环 区 采 
样 与 方向 无 关 的 频率 带 。 这 种 采样 方式 也 
可 通过 软件 完成 。 任 何 情况 下 ， 如 果 采 样 
Tn AKEn SAAK, MEn, + n, 个 特 
征 ， 这 些 特征 对 于 图 像 邻 域 的 分 类 是 有 用 
的 ， 这 些 特 征 是 关于 这 些 邻 域 的 特征 。 





图 5-40 正弦 波 在 X 轴 和 Y 轴 方向 的 波长 ww 和 1mu 与 2D 
波 的 波长 4 之 间 的 关系 








”图 5-41 
(上 行 ) 三 个 正弦 波 
(下 行 ) 它们 在 功率 谱 上 的 主要 响应 
5.11.3 离散 傅 里 叶 变 换 
179 数字 图 像 中 用 到 了 离散 傅 里 叶 变换 ， 或 称 为 DFT， 其 定义 参见 公式 (5-34)。 我 们 已 经 知 
道 ， 关 于 Nx N 实 值 图 像 集合 的 基 必 须 有 入 "个 基 向 量 。 每 个 基 由 一 对 频率 参数 4、v 决 定 ， 它 们 
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的 范围 从 0 到 N-1， 如 下 面 的 公式 所 示 。 
pak 





图 5-42 三 幅 图 像 (上 ) 及 其 功率 谱 (下 )。 砖 块 纹理 的 功率 谱 表明 能 量 分 布 在 多 个 频率 的 
多 个 正弦 波 上 ， 但 主要 方向 是 与 6 个 黑 颖 垂直 的 方向 ， 与 X 轴 约 成 45" 角 。 在 与 X 轴 
成 0 角 的 方向 上 有 明显 的 能 量 分 布 ， 它 们 源 自 较 短 的 垂直 颖 。 建筑 物 的 功率 谱 说 明了 
在 沿 X 和 Y 方 向 上 波 的 高 频 能 量 。 右 边 的 图 ， 取 自 一 个 电话 本 ， 与 X 轴 成 60" 角 的 方 
向 上 分 布 有 高 频 功 率 ， 它 们 表示 文本 行 的 纹理 。 垂直 方向 的 能 量 分 布 得 更 宽 ， 表 
示 字 符 以 及 字符 间距 ( 砖 块 图 像 来 自 MIT 媒 体 实验 室 Vis Tex 数 据 库 。 Nairobi 建 筑 
物 的 图 像 由 Ida Stockman 提 供 ) 


定义 62 ”离散 储 里 叶 变 换 (DFT)， 将 一 幅 具 有 N x N 个 空间 采样 点 的 图 像 I[x, y] 变 换 
到 频 域 N x N 阵 列 F[u, v]。 
N-1N-1 


Flu, v] = ra D, bN Ilx, yle m u+) (5-34) 
N x=0 y=0 

为 了 计算 单个 频 域 元 素 (像素 ) Flu, v]， 只 需 计 算 整 幅 图 像 I[x， VARRE, Lx, y] 的 点 积 ， 
一 般 不 是 真正 地 建立 频 域 图 像 ， 而 是 用 u、v 和 所 需 的 cos 和 sin 函 数 隐 含 表示 出 来 。 同样 也 定义 
一 个 逆 变 换 ， 将 频 域 的 F[u, v] 变 换 成 空间 图 像 I[x, yle 虽然 可 以 将 变换 F 显 示 为 2D 图 像 ， 但 我 
们 不 认为 它 真 是 一 幅 图 像 ， 这 样 可 以 减少 混淆 。 下 面 我 们 采用 正式 的 术语 即 频 率 表 示 
(frequency representation ) 。 

定义 63 ”离散 傅 里 叶 逆 变换 (IDFT)， 将 一 个 N x N 的 频率 表示 F[u, v] 变 换 到 N x NN 的 

空间 图 像 I[x, y]。 


1 x Wl +27 j 
7[x, y] = v 2 2 Flu, vje n> (ux+vy) (5-35) 
首先 把 I[x, y] 正 变换 到 F[x, y], 我 们 期 望 通过 逆 变换 能 够 得 到 原始 图 像 。 上 面 给 出 的 一 对 
定义 ， 却 不 具备 这 一 特性 ， 证 明 就 留 作 下 面 的 习题 。 首 先 重点 讨论 DFT & IDFT 的 实际 应 用 。 
为 了 存储 或 者 传输 图 像 ， 将 图 像 变 换 成 频率 表示 是 有 用 的 ， 通过 逆 变换 可 以 恢复 出 输入 图 像 。 
图 像 处 理 中 ， 常常 在 逆 变 换 之 前 对 频率 表示 进行 一 些 增强 运算 。 例 如 ， 将 代表 高 频 波 的 F[u, v] 
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中 元 素 减 小 或 置 零 ， 就 可 以 减 小 或 去 除 高 频 干 扰 。5.11.6 节 的 卷 积 定理 对 这 个 过 程 进行 了 明确 
HEREA, 





MS 复数 的 基本 性 质 
利用 定义 se" = cosw + jsino, (a) WEHE)" = cos(nw) + jsin(n@). (b) 证 明 x=e 是 方 


270 jamk 
fax” - 1 = 0 在 k= 0, 1,…, N-1 的 解 。(c) 如 果 xo=1=e N EOE =e Ni 是 方程 x*- 1 = 0 的 N 
个 根 。 证 明 xi + x2 +x, +…+xw_1 = 0。 


| è i | De 
将 公式 (5-34) 的 F[u, 如 代入 到 公式 (5-35)， 我 们 希望 得 到 原来 的 值 IDx, y]。 考 虑 下 面 的 
求 和 运算 , 其 中 x*、y、s、t 是 [0，N-1] 内 的 整 型 参数 ， 它 们 和 变换 定义 中 的 含义 相同 。 


N-1N-1 


Laa- > 
CELE = Sy e Teto 


u=0 v=0 





(a) 证 明 如 果 s = x 和 + = y, BA Gays D= D 1=N?. (b) 证 明 如 果 s # xt # y, 


那么 G(x, y, 8,1) = 0。(c) 这 是 最 主要 的 ， 即 证 明 对 变换 后 的 结果 再 利用 逆 变 换 ， 能 得 到 原来 
的 图 像 。 
5.11.4 带 通 滤波 器 

带 通 滤波 是 频 域 中 常用 的 一 种 图 像 运算 ， 如 图 5-43 所 示 。 用 DFT 将 图 像 变 换 成 它 的 频率 表 
示 ， 其 中 有 的 频率 系数 减 小 ， 可 能 为 0%， 但 有 的 系数 保持 不 变 。 低 通 滤波 器 的 原理 图 参见 图 5-43 
的 左边 所 示 。 直 观 上 ， 通 过 去 除 高 频 ， 然 后 借助 公式 (5-35) 进行 逆 变 换 ， 将 改变 了 的 频率 表 
示 变 换 为 平滑 后 的 原始 图 像 。 如 果 不 去 除 频率 表示 的 元 素 ， 也 可 以 通过 求 F[w v] 和 2D 高 斯 的 
护 积 ， 因 为 高 斯 函数 对 低频 成 分 的 加 权 值 较 高 ， 对 高 频 成 分 的 加 权 值 较 低 。 图 5-43 中 也 显示 
了 如 何 改变 频率 表示 来 实现 高 通 和 带 通 滤波 。5.11.6 节 卷 积 定理 部 分 ， 对 这 些 运算 进行 了 更 深 
入 的 讨论 。 

减少 /去 掉 减少 /去 掉 


JHO 





低 通 


高 通 带 通 
F * F`! 
I[x,y] 


图 5-43 带 通 滤波 ， 先 通过 传 里 叶 变换 将 图 像 变 换 到 频 域 (Flu, v])， 然 后 再 与 带 
通 滤 波 器 相 乘 (*)。 乘 运算 的 结果 使 很 多 频率 系数 4、v 为 0， 如 上 面 一 
行 所 示 。 改 善后 的 频率 表示 经 过 逆 变 换 得 到 改善 后 的 空间 图 像 FT[x, y] 
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5.11.5 傅 里 叶 变 换 讨论 

快速 伟 里 叶 变 换 ， 对 于 不 同 的 x、v 对 共享 共同 的 运算 ， 从 而 节省 了 计算 时 间 ， 这 种 算法 
通常 用 于 2” = 2" 的 方形 图 像 。 尽 管 传 里 叶 变 换 在 图 像 处 理 中 得 到 普遍 应 用 ， 但 它 可 能 引起 图 
像 中 的 局 部 特征 受到 破坏 ， 而 这 是 不 希望 发 生 的 。 傅 里 叶 变 换 是 全 局 性 的 变换 ， 每 次 计算 F[w， 
可 时 都 利用 了 所 有 的 图 像 像 素 。 例 如 ， 为 了 表示 头发 或 草地 ， 或 者 一 些 其 他 细微 特征 ， 必 须 
要 用 到 高 频 波 。 一 方面 ， 这 样 的 高 频 信息 可 能 被 当做 噪声 主 掉 。 即 使 没有 让 掩 ， 也 将 通过 高 
频 波 与 整 幅 图 像 的 点 积 来 计算 高 频 响 应 F[w, wj]。 由 于 头发 或 草地 区 域 只 是 整 幅 图 像 的 一 小 部 
分 ， 点 积 结果 的 高 低 ， 取 决 于 其 他 部 分 的 图 像 内 容 。 在 过 去 的 十 年 中 ， 明 显 的 趋势 是 采用 小 
波 代 赫 图 像 波 。 小 波 对 于 局 部 的 图 像 变 化 更 加 敏感 ， 同 时 也 保留 了 全 局 性 正 荡 波 的 一 些 主要 
优点 。JPEG 和 其 他 图 像 压缩 机 制 ， 在 子 图 像 上 采用 余弦 波 表示 来 减 小 数据 大 小 。 有 时 为 了 保 
持 所 需 的 局 部 图 像 细 节 ， 就 要 避免 这 样 的 压缩 机 制 。 

5.11.6 卷 积 定理 * 

本 节 ， 我 们 简要 介绍 卷 积 定理 的 证 明 过 程 ， 说 明了 两 个 图 数 在 空间 域 的 卷 积 与 它们 的 频 
域 表 示 逐 点 相 乘 等 价 。 我 们 已 经 看 到 ， 这 种 等 价 关 系 具有 重要 的 实用 价值 。 

卷 积 定理 : 

WR, y) 和 h(x, y) 是 关于 空间 参数 x、y 的 满足 一 定 条 件 的 函数 ， 那 么 F(flx, y)*h(x, y)) = 
F(f*h)@, y)) = FFG, y) FAQ, y)) = F(u, v)H(u, v), 其 中 F 是 傅 里 叶 变 换算 子 ，* 是 卷 积 算 子 。 

在 证 明 1D 情 况 之 前 ， 先 给 出 信号 处 理 中 常用 的 步骤 (参加 算法 5.3)。 图 像 f(x, y) 所 有 点 的 
卷 积 运算 ， 也 可 以 不 用 模板 h(x, y)。 

对 常用 的 滤波 器 h， 变 换 万 可 能 是 封闭 的 函数 表达 形式 或 者 是 内 存 中 的 存储 阵列 ， 这 样 就 
Gig (HR (2)。 售 号 处 理 方面 的 教材 一 般 包含 变 换 对 < 六 H> 的 表格 ， 不 仅 用 图 示 方 式 也 
用 函 数 形 式 进 行 说 明 ， 读 者 可 以 从 中 选择 具有 合适 特性 的 滤波 器 。 现 在 简要 叙述 1D 卷 积 定理 
证 明 过 程 ， 同 样 步 又 可 以 推广 到 2D 情 况 。 中 间 步 骤 的 移 位 定理 说 明 ， 当 函数 移 位 时 变换 将 是 
怎样 的 。 

算法 5.3 借助 傅 里 时 变换 通过 模板 h(x, y) 对 图 像 有 x, y) 进行 滤波 

(1) 对 图 像 Ax, y) 进 行 健 里 叶 变 换 得 到 它 的 频率 表示 F(u，v); 

(2) 对 模板 h(x, yy) 进行 伟 里 叶 变 换 得 到 它 的 频率 表示 Hlu, v); 

(3) 对 Fu v) 和 H(u, v) ARIEF Uu, v); 

(4) 对 Fw, v) 应 用 傅 里 叶 逆 变 换 得 到 滤波 图 像 F(x, y)。 

移 位 定理 : F(x- x0)) = e720F(f(x)) 

通过 定义 F-E | fle—x)e Pde ， 进 行 变量 替换 x = x - xo, RIR 











F(f(x-x,))= [re Je! 2mu( x40) gx 


= fier amoo f(x Je! 2mux' gy! 
L 2 nux (5-36) 
=e TR f(x) 





其 中 第 一 个 因子 对 于 变量 x 的 积分 是 恒定 的 。 注 意 到 
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2 
le” i = cos? (2nux,)+sin?(2nux,)=1 (5-37) 


所 以 函数 移 位 不 改变 f(x) REU) 的 能 量 。 
现在 利用 上 面 的 结果 简单 对 卷 积 定理 进行 证 明 。 


x=+00 ( et=+0 Fo 
Fr*mDco)= | | fo -Dar h Mak dy. (5-38) 
x=—00 | Jt=-co 
利用 对 函数 /和 Hh 所 施加 的 约 东 条件， 允许 对 积分 顺序 进行 交换 。 
FEDDES SOf ha-pe” axa (5-39) 
利用 移 位 定理 ， 
—j 2TUxr ] _ .-j 2nut 
s h(x—it)e dx=e H(u) (5-40) 


其 中 H(w) 是 h(x) 的 传 里 时 变换 ， 我 们 现在 有 
FSAA) = | FOE Hdr 


=Hw Í fle ™ at 
= H(u)F(u) = Fw) Hu) (5-41) 


1D 卷 积 定理 证 毕 。 


n 


模仿 1D 移 位 定理 和 卷 积 定理 的 证 明 过 程 ， 证 明 2D 移 位 定理 和 卷 积 定理 。 


5.12 总 结 和 讨论 

本 章 内 容 很 多 ， 包 含 诸多 方法 和 例子 。 我 们 来 回顾 一 下 主要 概念 是 很 重要 的 。 首 先 讨论 
了 增强 图 像 外 观 的 方法 ， 目 的 是 为 了 人 们 更 容易 理解 图 像 ， 或 者 是 为 了 自动 处 理 的 需要 。 有 
的 方法 对 亮度 级 别 重新 映射 以 增强 场景 目标 的 外 观 ， 可 以 看 出 改善 部 分 图 像 区 域 常常 以 降低 
其 他 区 域 的 显示 效果 为 代价 。 这 些 方法 主要 针对 灰 度 图 像 ， 但 大 多 数 都 可 扩展 到 彩色 图 像 ， 
如 果 使 用 过 图 像 增 强 工具 的 话 ， 就 能 够 知道 这 一 点 。 我 们 对 边缘 增强 也 进行 了 讨论 ， 它 是 人 
们 理解 图 像 的 一 种 手段 。 希 望 艺术 家 的 工具 箱 也 因此 已 经 变 得 更 加 丰富 。 

本 章 最 重要 的 概念 是 利用 模板 或 核 来 定义 一 个 局 部 结构 ， 然 后 应 用 于 整个 图 像 。 卷 积 和 
交叉 相关 是 两 个 非常 有 用 和 相关 的 技术 ， 它 们 通过 将 输入 图 像 亮度 和 对 应 的 模板 值 逐 点 求 积 
再 相 加 ， 就 得 到 在 I[x, 习 处 的 处 理 结果 。 这 些 都 是 在 理论 和 实际 中 很 常见 的 线性 操作 。 从 前 面 
的 讨论 可 以 看 到 ， 在 特殊 图 像 点 对 特殊 模板 的 响应 (相关 ) ， 可 以 度量 模板 结构 与 图 像 邻 域 结 
构 的 相似 程度 。 这 个 思想 提供 一 种 设计 模板 或 滤波 器 的 实用 方法 ， 可 针对 不 同 任务 如 平滑 、 
边缘 检测 、 角 点 检测 甚至 是 纹理 检测 进行 设计 。 
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关于 边缘 检测 的 文献 非常 多 ， 本 章 涉及 几 种 不 同 的 方法 。 要 明白 ， 对 于 特殊 的 机 器 视觉 
任务 来 说 特殊 的 边缘 检测 是 非常 有 用 的 。 而 许多 开发 者 的 梦想 都 尚未 实现 : 对 于 目标 边界 这 
样 的 低层 视觉 问题 产生 一 个 统一 的 解 ， 其 中 目标 边界 用 已 检测 到 的 边缘 描述 表示 。 也 许 这 个 
梦想 是 不 现实 的 。 毕 觉 ， 给 出 一 幅 汽 车 的 图 像 ， 低 层 系统 如 何 能 知道 图 像 中 是 否 有 汽车 ， 是 
否 是 我 们 的 兴趣 所 在 ， 是 动 是 静 ， 或 者 我 们 是 对 检查 汽车 的 表面 划 痕 有 兴趣 ， 还 是 仅仅 对 识 
别 汽 车 的 品牌 感 兴趣 ? 本 章 的 边缘 图 像 在 很 多 方面 都 有 用 处 。 事 实 也 是 如 此 ， 后 续 章节 的 许 
多 方法 都 要 以 边缘 输入 为 基础 。 但 我 们 对 于 边缘 图 也 不 应 过 分 乐观 ， 因 为 我 们 自己 解释 本 章 
的 图 像 时 ， 利 用 了 大 量 关于 物体 和 世界 的 高 层 结构 和 知识 。 开 发 出 的 更 高 层 方法 必须 具有 容 
错 性 ， 因 为 边缘 图 像 有 间断 、 噪 声 和 多 层 结构 ， 这 些 问 题 使 基于 边缘 的 算法 面临 挑战 。 
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第 6 章 ”颜色 与 明暗 分 析 


色 感 对 人 类 来 说 是 非常 重要 的 ， 色 感 不 仅 与 光学 物理 有 关 ， 而 且 依赖 于 人 眼 和 大 脑 对 外 
界 刺激 进行 融合 处 理 的 复杂 过 程 。 人 类 通过 颜色 信息 辨别 物体 、 材 料 、 食 品 和 地 点 ， 其 至 一 
天 中 的 某 段 时 间 ， 图 6-1 是 同一 场景 但 颜色 编码 不 同 的 两 幅 图 像 。 尽 管 两 幅 图 中 动物 的 形状 是 
一 样 的 ， 但 右边 的 图 像 与 左边 的 图 像 差异 很 大 ， 观 察 者 会 把 右边 的 一 幅 图 看 成 是 室内 场景 中 
的 一 只 家 猫 ， 而 不 是 草坪 上 的 一 只 老虎 。 





图 6-1 ”( 原 图 经 Corel Stock Photos 许 可 ) 参见 彩 图 6-1 
( 左 图 ) 老虎 在 草地 上 的 自然 色 图 像 
( 右 图 ) 由 于 颜色 的 改变 ， 对 老虎 的 识别 变 得 不 大 可靠， 也许 是 只 站 在 地 毯 上 的 家 猫 ? 


随 着 廉价 设备 性 能 的 提高 ， 利 用 机 器 进行 颜色 计算 变 得 十 分 平常 。 现 在 已 经 有 了 彩色 摄 
像 机 、 彩 色 显 示 器 和 进行 彩色 图 像 处 理 的 软件 。 和 人 类 使 用 颜色 的 目的 相同 ， 机 器 也 可 以 使 
用 颜色 。 颜 色 信息 能 带 来 很 多 方便 ， 因 为 它 在 图 像 像素 上 提供 多 个 测度 值 ， 常 常 能 够 使 分 类 
变 得 更 加 简单 而 不 需要 做 复杂 的 空间 决策 。 

对 颜色 物理 学 和 色 感 进行 深入 的 研究 需要 大 量 的 篇 幅 ， 这 里 我 们 只 提供 足够 编程 用 的 颜 
色 基 本 知识 ， 或 者 只 作为 阅读 文献 资料 的 一 个 指南 。 在 介绍 图 像 颜 色 编码 的 实用 方法 时 ， 也 
会 附带 介绍 颜色 物理 学 的 一 些 基本 原理 。 随 后 给 出 一 些 基于 颜色 的 目标 识别 和 图 像 分 割 的 实 
例 及 方法 。 

目标 的 明暗 也 要 进行 讨论 ， 这 个 问题 不 只 与 目标 颜色 和 光照 有 关 ， 还 与 其 他 许多 因素 有 
关 。 这 些 因素 包括 物体 表面 的 粗糙 度 、 表 面 和 光源 以 及 观察 者 之 间 的 角度 、 表 面 离 光 源 及 观 
察 者 之 间 的 距离 等 。 颜 色 与 明暗 效果 ， 几 个 世纪 以 来 一 直 是 艺术 作品 的 重要 组 成 部 分 ， 对 于 
计算 机 视觉 算法 中 的 场景 解释 来 说 也 是 非常 重要 的 。 
6.1 颜色 物理 学 

波长 4 在 400 ~ 700nm 之 间 的 电磁 辐射 会 刺激 人 体 的 感觉 神经 , 从 而 产生 色 感 (参见 图 6-2)。 
lnm 等 于 10 mm， 也 称 作为 毫 微米 。 对 蓝 色光 来 说 ， 每 个 波长 是 400 x 10-*m， 意 味 着 每 米 长 度 
上 会 有 2.5 x 10' 个 蓝 波 ， 或 者 每 厘米 长 度 上 有 25 000 个 蓝 波 。 真 空中 的 光速 是 3 x 10 m/sec, 


N 
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这 相当 于 每 秒 0.75 x 10" 个 蓝 波 的 频率 。 这 个 频率 是 X 射 线 的 千 分 之 一 ， 是 无 线 电波 的 10 亿 倍 。 
可 见 光 


apn EE ns — 
X 射 线 无 线 电波 
紫外 线 蓝光 BRIE HH 红外 线 
400 600 800 
波长 4 (nm) 


图 6-2 电磁 波谱 中 的 可 见 光 部 分 
在 本 章 后 面 的 内 容 中 ， 我 们 提 到 波长 或 频率 ， 只 关心 它们 所 产生 的 颜色 性 质 。 在 人 类 感 
觉 神经 能 感知 的 光谱 范围 之 外 ， 机 器 检测 光 辐 射 的 能 力 是 很 强 的 。 例 如 ， 特 殊 设备 可 以 检测 
到 短 紫 外 波 和 极 短 的 X 射 线 。 另 外 ， 许 多 固态 摄像 机 能 够 检测 到 红外 长 波 ， 无 线 电 接收 机 会 收 
到 波长 很 长 的 无 线 电波 。 随 着 科学 和 工程 技术 的 发 展 ， 已 经 研制 出 能 够 对 像素 进行 测量 的 设 
备 ， 这 些 设备 能 够 把 像素 测度 值 转换 为 可 见 光谱 ， 如 X 光 机 和 红外 (IR) 卫星 天 气 扫描 仪 就 是 
常见 的 两 种 设备 。 


假设 一 张 纸 厚 0.004 英寸 。 如 用 蓝光 的 波长 做 为 单位 ， 纸 的 厚度 是 多 少 ? 


6.1.1 感 测 被 照射 物体 

图 6-3 显 示 点 光源 照射 到 一 个 物体 表面 的 情况 。 光 源 的 照射 能 量 与 物体 表面 分 子 相互 作用 
的 结果 ， 使 表面 发 出 光 能 或 者 辐射 出 光 ， 一 部 分 能 量 又 反射 照射 并 刺激 摄像 头 内 的 传 感 元 件 
或 者 生物 体 眼 睛 内 的 敏感 细胞 。 对 物体 颜色 的 感知 或 理解 一 般 依 赖 如 下 三 个 因素 : 

“ 不同 波长 的 光 能 照射 到 物体 表面 。 

“ 物体 表面 对 光 的 反射 ， 这 决定 了 物体 表面 怎样 将 入 射 光 转 化 为 反射 光 。 

"传感器 的 光敏 特性 ， 传 感 器 接收 来 自 物体 表面 的 反射 光照 射 。 


定义 64 可 见 光 谱 中 所 有 波长 的 光 按 大 致 相同 的 能 量 比 进行 组 合 而 形成 白光 。 





传 感 元 件 


图 6-3 光源 光 能 经 物体 表面 反射 后 照射 到 传 感 元 件 上 
一 个 物体 显示 蔓 色 ， 是 因为 当 白 光照 射 到 它 的 表面 时 ， 其 表面 材料 显示 蓝 色 。 对 于 同一 
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个 物体 ， 当 只 用 红色 光照 射 时 将 显示 紫色 。 一 辆 蓝 色 汽车 在 强烈 的 阳光 (白光 ) 照射 下 摸 起 
来 会 觉得 很 热 。 汽 车 辐射 出 的 能 量 在 IR 范 围 内 ， 虽 然 人 眼看 不 到 这 种 IR 能 量 , 但 是 IR 摄 像 头 
可 以 观测 到 。 

6.1.2 其 他 因素 

除了 上 面 的 三 个 主要 因素 外 ， 还 有 其 他 几 种 物理 学 和 人 类 色 感 方面 的 复杂 因素 。 物 体 表 
面 的 镜面 反射 特性 是 不 同 的 ， 也 就 是 说 它们 像 镜子 的 程度 不 一 样 。 粗 糙 表 面 在 所 有 方向 上 的 
反射 能 量 是 相同 的 。 接 收 的 能 量 或 者 强度 与 距离 有 关 ， 离 白色 点 光源 距离 较 远 的 表面 面 元 比 
距离 较 近 的 表面 面 元 接收 的 能 量 要 少 。 其 效果 与 被 照射 物体 和 传 感 元 件 之 间 的 距离 关系 类 似 。 
因此 ， 相 同 表面 材料 的 图 像 其 像素 强度 会 由 于 沿 成 像 光线 的 距离 不 同 而 不 同 。 对 于 表面 反射 
到 传感器 的 能 量 来 说 ， 表 面 面 元 相对 光源 的 方向 6 甚至 比 距离 更 重要 。 这 些 问 题 在 本 章 未 将 会 
进行 更 详细 的 讨论 。 


习题 6.2 强度 随 距离 而 变化 


摄像 头 垂直 于 纸 面 安装 ， 白 炽 灯 从 纸 的 另 一 面 照射 。 拍 摄 图 像 并 研究 图 像 的 强度 。 强 度 
变化 有 多 大 ? 对 于 最 明亮 的 像素 点 ， 随 着 距离 的 增加 强度 是 不 是 有 规律 地 减 小 ? 


习题 6.3 强度 随 表面 法 线 而 变化 


用 一 个 排球 代替 一 张 纸 重复 上 述 实验 。 拍摄 图 像 并 研究 图 像 强 度 。 说 明 强 度 的 变化 情况 
及 其 规律 。 
6.1.3 感受 器 的 敏感 性 

实际 感受 器 只 对 一 些 光 波 有 反应 ， 而 且 对 某 些 光波 比 对 其 他 光波 更 加 敏感 。 图 6-4 是 抽样 
敏感 曲线 。 三 条 曲线 分 别 对 应 人 眼 的 三 类 不 同 的 锥 状 体 ， 其 中 包含 对 不 同 光 波 敏感 的 不 同化 
学 色素 。“humani” 曲 线 所 对 应 的 锥 状 体 ， 
对 400 ~ 500nm 之 间 的 蓝光 略为 敏感 。 
human” 曲线 所 对 应 的 锥 状 体 ， 对 绿 光 非 
常 敏 感 ， 而 对 较 短 的 蓝 波 和 较 长 的 红 波 上 略微 
敏感 。 大 脑 对 局 部 范围 内 的 几 种 锥 状 体 的 反 
应 进行 融合 ， 就 产生 了 可 见 范围 的 色 感 。 值 
得 注意 的 是 ， 虽 然 光 的 波长 数目 有 无 数 个 ， 
但 只 要 有 三 种 感受 器 就 可 以 了 。 许 多 其 他 有 
眼 的 动物 只 有 一 种 或 两 种 光 感 受 器 ， 产 生 的 
色 感 可 能 不 是 很 丰富 。 固 态 传 感 元 件 常常 在 


敏感 性 





人 类 色 感 范围 之 外 有 非常 好 的 敏感 性 。 有 一 a en ae 


点 需要 牢记 的 是 ， 有 些 时候 随 着 天 气 的 变 暖 ， 


机 器 视觉 系统 看 到 的 场景 会 和 操作 人 员 看 到 图 6-4 Re Ain eae Bete eee 
的 不 一 样 ， 这 主要 是 由 于 对 IR 辐 射 的 敏感 性 性 比较 
不 同 所 造成 的 。 


习题 6.4 最 喜欢 的 颜色 


你 有 最 喜欢 的 颜色 吗 ? 如 果 有 ， 那 是 什么 颜色 ? 为 什么 ? 再 问 一 下 你 周围 的 其 余 三 个 人 ， 
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他 们 最 喜欢 的 颜色 是 什么 。 假 设 你 得 到 的 是 多 个 答案 ， 怎 样 解释 这 种 情况 ? 利用 已 学 过 的 颜 
色 物 理学 知识 。 
6.2 RGB 三 基色 

仅仅 通过 使 用 三 种 类 型 的 感受 器 ， 人 就 可 以 分 辨 出 数 千 种 颜色 ， 有 具体 更 精确 的 数字 还 存 
在 和 争议。 图形 学 系统 中 的 三 基色 RGB (red-green-blue) 编码 ， 常 常用 3 字 节 表示 ,产生 (2°)? 
或 者 大 概 1600 万 种 不 同 的 颜色 编码 。 为 了 更 精确 ， 我 们 说 是 1600 万 种 编码 而 不 是 1600 万 种 颜 
色 ， 这 是 因为 实际 上 人 们 并 不 能 感知 这 么 多 不 同 的 颜色 。 机 器 可 以 辨别 出 任何 一 对 位 编码 不 
相同 的 颜色 ， 但 是 这 种 编码 也 许 能 也 许 不 能 表现 现实 世界 的 显著 差异 。 在 3 字 节 或 者 24 位 RGB 
像素 表示 中 ， 红 、 绿 、 蓝 各 占 一 个 字 节 。 它 们 在 内 存 中 的 存储 顺序 可 以 有 变化 。 存 储 顺序 与 
理论 无 关 ， 但 对 编程 的 影响 较 大 。 显 示 设 备 的 分 辩 率 如 果 与 人 眼 匹 配 ， 则 称 它 使 用 的 是 真 彩 
色 。 这 至 少 需要 16 位 ，15 位 的 编码 系统 可 能 是 R、B、G 各 占 $ 位 ， 而 16 位 的 编码 系统 中 绿色 占 
6 位 ， 这 样 能 更 好 的 表示 绿色 ， 因 为 人 们 对 绿色 的 敏感 程度 相对 较 大 。 

可 见 光 谱 中 任意 颜色 的 编码 可 以 通过 对 三 基色 (RGB) 进行 组 合 得 到 ， 如 图 6-5 所 示 。 红 
色 (255, 0, 0) 和 绿色 (0, 255,0) 等 量 混 合 就 会 得 到 黄色 (255, 255, 0)。 与 一 种 基色 对 应 的 
数值 表示 该 基色 的 强度 。 如 果 每 种 基色 的 强度 都 是 最 大 值 ， 那 么 结果 就 会 产 牛 白色 。 等 比例 
的 低 强 度 三 基色 产生 的 颜色 从 灰色 (c, c, c) 一 直到 黑色 (0, 0, 0)， 其 中 c 为 0 到 255 的 任意 常 
数 。 在 我 们 的 算法 中 确定 颜色 值 时 ， 利 用 0 到 1 范围 的 数值 要 比 0 到 255 更 加 方便 ， 颜色 值 的 取 
值 范围 是 与 设备 无 关 的 。 

RGB 
红 (255, 0, 0) 
黄 (255,255, 0) 


(100,100, 50) 


ee ( 0,255, 0) 


W ( 0, 0,255) 
FY (255,255,255) 
Ak (192,192,192) 


(127,127,127) 
( 63, 63, 63) 











图 6-5 几 种 不 同 的 三 基色 颜色 编码 系统 。 在 算法 中 确定 颜色 值 时 ， 利 用 0 到 1 范围 的 
数值 更 加 方便 。HSI 值 是 利用 算法 6.1 由 RGB 变 换 得 来 的 ， 其 中 He [0.0, 27], 
Se [0.0, 1.0], Ze [0, 255]，H 和 5S 采用 字 节 编码 
RGB 系统 是 一 个 加 色 系 统 (additive color system ) ， 因 为 是 向 黑色 (0, 0, 0) 中 加 入 不 
同 成 分 形成 新 的 颜色 。 这 与 RGB 显示 器 (监视 器 ) 有 着 很 好 的 对 应 。RGB 显 示 器 中 有 三 种 英 
光 粉 能 够 发 射出 光线 ， 三 个 相 邻 的 荧光 点 构成 一 个 像素 ， 这 些 荧光 点 受到 三 束 强度 分 别 为 cj、 
c2、6; 的 电子 束 的 释 击 。 人 有 眼 对 三 种 荧光 进行 综合 产生 出 颜色 (c co, cs) 的 感觉 。 来 自 CRT 
屏幕 上 小 片区 域 的 三 条 光波 ， 在 物理 上 被 至 加 或 者 混合 到 一 起 。 
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假设 颜色 传感器 把 数字 图 像 上 的 一 个 像素 编码 成 (R，G，B)， 其 中 每 个 坐标 的 取 值 范围 
是 [0 255]。 公 式 (6-1) 是 一 种 对 图 像 数据 进行 规范 化 处 理 的 方法 ， 这 样 做 可 以 为 计算 机 程序 
和 人 的 判读 带 来 方便 ， 同 时 也 方便 进行 颜色 系统 的 转换 ， 这 一 点 将 在 后 面 讨论 。 想 像 一 台 彩 
色 摄像 机 在 光照 发 生变 换 的 场景 下 工作 。 例 如 ， 物 体 表 面 上 的 点 离 光 源 的 距离 是 不 一 样 的 ， 
黄 至 对 于 某 些 光源 来 说 有 的 点 位 于 阴影 之 中 。 如 聚集 小 汽车 图 像 中 的 绿色 像素 ， 如 果 不 先进 
行 强度 规范 化 处 理 ， 算 法 的 结果 将 非常 糟糕 。 
强度 规范 化 T=(R+G+B)/3 
红色 规范 化 r=R/(R+G+B) 
绿色 规范 化 g=G/(R+G+B) 
WEHE b=B/(R+G +B) 
利用 公式 (6-1) 的 计算 方法 ,规范 化 后 的 
RGB 值 的 和 始终 为 1。 还 有 其 他 的 规范 化 方法 ， 
例如 我 们 可 以 用 (R, G, B) 中 的 最 大 值 做 除 
数 而 不 是 用 RGB 的 平均 值 。 由 于 r+g+b=1， 
颜色 坐标 之 间 的 关系 就 能 够 通过 2D 图 方便 地 给 
出 ， 如 图 6-6 所 示 。 纯 颜色 值 用 三 角形 的 三 定点 
表示 。 例 如 消防 红色 在 右 下 角 (1, 0) 附近 ， 
草绿 色 位 于 上 面 (0, 1) 处 ， 而 白色 位 于 中 心 
(1/3, 13)。 在 图 6-6 中 ， 蓝 轴 与 r 轴 和 8g 轴 垂直 ， 
方向 由 纸 面 向 外 ， 这 样 三 角形 实际 上 是 通过 点 
[1, 0, OJ, [0, 1, OJFH[O, 0, 3 的 三 维 坐 标 
系 中 的 一 个 薄 面 。 对 于 三 角形 内 部 不 同 的 r ~ g 
取 值 ， 蓝 色 值 可 以 通过 b = 1-r-g 算 出 。 


(6-1) 


r 





图 6-6 SUEIERGB LR ABE = fe. Webs 






EOS 颜色 编码 实验 7 轴 和 8 轴 垂 直 ， 方 向 由 纸 面向 外 。 这 样 三 角 
得 到 一 幅 RGB 彩 色 图 像 ， 并 利用 图 像 工具 rte e A 
认真 观察 .把 绿色 和 蓝 色 的 编码 字段 进行 交换 ， ae Heo hela’ 
对 结果 进行 分 析 说 明 。 把 所 有 蓝 色 值 加 倍 ， 对 dielarik 
结果 进行 分 析 说 明 。 
6.3 其 他 基色 系统 


其 他 一 些 基色 系统 ， 有 的 适用 于 产生 彩色 的 设备 ， 有 的 符合 人 类 色 感 。 有 的 基色 只 是 其 
他 基色 线性 变换 的 结果 ， 有 的 不 是 。 
6.3.1 CMY 减 色 系 统 

CMY 减 色 系统 是 在 白 纸 上 印刷 的 模型 ， 它 是 从 白色 值 上 减 去 某 个 数值 ， 而 不 是 像 RGB 系 
统 那样 向 黑色 值 上 加 上 某 个 数值 。 在 图 6-5 中 ， CMY 编 码 位 于 RGB 编码 的 右边 。CMY 是 
“Cyan-Magenta-Yellow” 的 缩写 ， 这 是 CMY 系 统 的 三 基色 ， 对 应 三 种 墨水 。 青色 吸收 红 光 照 
射 ， 品 红色 吸收 绿 光 ， 黄 色 吸 收 蓝光 ， 因此 当 印 好 的 图 像 被 白光 照射 时 会 产生 合适 的 反射 。 
该 系统 被 称 为 减 色 系统 ， 因 为 是 为 了 吸收 而 编码 。 部 分 颜色 的 编码 情况 为 : 白色 编码 (0，0， 
0)， 因 为 白色 光 不 会 被 吸收 ; 黑色 编码 (255, 255，255 )， 因 为 白光 的 所 有 成 分 都 会 被 吸 
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收 ; 黄色 编码 (0，0，255)， 因 为 人 射 白光 中 的 蓝 色 成 分 容易 被 墨水 吸收 ， 从 而 留 下 了 红色 


和 绿色 的 成 分 ， 就 产生 了 黄色 的 感觉 。 
6.3.2 HSI 系 统 


HSI (色调 ,饱和 度 ,强度 ) 系统 对 颜色 信息 进行 编码 ， 从 两 个 色 度 (chromaticity) 编码 值 
中 分 离 出 总 强度 LI， 这 两 个 色 度 是 色调 H 和 饱和 度 S。 图 6-7 中 的 颜色 立方 体 与 图 6-6 中 的 RGB 三 
角形 有 关 。 在 立方 体 表示 中 ， 每 个 六 8、2 值 可 以 独立 在 [0.0, 1.0] 范 围 内 编码 。 如 果 沿 主 对 角 


线 对 立方 体 进行 投影 ， 就 得 到 图 6-8 中 左边 的 六 边 
形 。 在 这 个 表示 方法 中 ， 原 来 沿 着 颜色 立方 体 对 角 
线 的 灰色 现在 都 投影 到 中 心 白色 点 ， 而 红色 点 [1， 
0，0] 现 在 则 位 于 右边 的 角 上 ， 绿 色 点 [0，1，0] 位 
于 六 边 形 的 左上 角 。 图 6-8 的 右边 是 称 为 六 棱锥 
(hexacone) 的 3D 颜 色 表 示 法 。 三 维 表示 法 允许 把 
前 面 立 方 体 的 对 角 线 看 成 是 一 条 竖 直 的 强度 轴 I。 
定义 色调 再 的 角度 范围 是 离 红 色 轴 0 到 2r 之 间 ， 其 
中 纯 红色 的 角度 为 0， 纯 绿色 的 角度 为 2r/3, 纯 蓝 色 
的 角度 为 4r/3。 为 了 在 这 个 颜色 空间 中 完全 确定 一 
个 点 ， 饱 和 度 $ 是 第 三 个 坐标 值 。 饱 和 度 是 颜色 纯 
度 或 者 色调 的 模型 ， 用 1 来 表示 完全 纯净 或 完全 饱 
和 色 ; 用 0 表示 完全 不 饱和 色调 ， 也 就 是 说 有 一 些 
灰色 成 分 。 








图 6-7 规范 化 RGB 坐标 系 的 颜色 立方 体 。 图 6-6 
中 的 三 角形 是 对 过 点 [1,0,0]、[0,1,0] 与 
[0.0.1] 的 平面 进行 投影 的 结果 





图 6-8 HSI 颜 色 六 棱锥 表示 。 左 边 是 RGB 立方 体 的 投影 ， 与 过 点 [0, 0,01. (1,1, 1] 的 
对 角 线 垂直 ,颜色 名 字 标 在 六 边 形 的 顶点 处 。 碳 边 是 一 个 六 棱锥 ， 表 示 HSI 颜 色 
坐标 系 ， 强 度 (1) 是 垂直 轴 ; 色调 (H) 是 从 0 到 2 的 角度 ， 红 色 位 于 0.0; Ha 
FUE (S) 的 范围 是 0 到 1， 其 值 与 纯度 或 者 不 同 于 白色 的 程度 有 关 ，S =0.0 的 


颜色 都 对 应 在 I 轴 上 


HSI 系 统 有 时 候 也 会 被 称 为 HSV 系 统 ， 在 HSV 系 统 中 用 值 (Value) 代替 强度 (Intensity). 
对 于 图 形 学 设计 人 员 ，HSI 系 统 更 为 方便 一 些 ， 因 为 它 提供 了 对 亮度 和 色调 的 直接 控制 。 彩 色 
蜡笔 被 放 在 中 间 且 靠近 I 轴 的 地 方 ， 而 深 色 和 浓 色 则 在 六 楼 锥 的 外 围 。HSI 也 可 以 对 计算 机 视 
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觉 算法 提供 更 好 的 支持 ， 因 为 它 可 以 对 照明 进行 规范 化 处 理 ， 还 可 以 聚焦 在 两 个 色 度 参数 上 ， 
这 两 个 色 度 参数 与 该 物体 表面 的 固有 特性 密切 相关 ， 而 不 是 与 照射 光源 密切 相关 。 
在 算法 6-1 中 ， 给 出 了 从 RGB 坐标 系 到 HSI 坐 标 系 的 推导 过 程 。 这 个 算法 可 以 对 输入 值 (r, 
g, b) 进行 转化 ， 这 些 输入 值 来 自 3D 颜 色 立 方 体 ， 或 者 经 公式 (6-1) 规范 化 处 理 过 ， 甚 至 是 
图 6-5$ 左 列 的 RGB 字 节 编码 值 。 强 度 7 的 输出 值 范围 与 输入 值 的 取 值 范围 相同 。 当 强度 [= 0 时 ， 
饱和 度 $ 并 没有 定义 ; 当 5=0 时 色调 H 也 没有 定义 。H 的 范围 是 [0，2r]。 而 为 了 确定 数学 变换 
公式 ， 要 用 到 平方 根 和 反 余 汞 运算 。 算 法 6.1 使 用 很 简单 的 运算 方法 ， 因 此 即使 把 一 整 幅 图 上 
的 所 有 像素 从 一 种 编码 转化 成 另 一 种 编码 时 ， 算 法 运行 起 来 也 是 非常 快 的 。 图 6-5 的 右边 给 
了 算法 6.1 的 输出 结果 。 
算法 6.1 RGB 编码 到 HSI 编 码 的 转换 
R,G,B: RGB 的 输入 值 ， 范 围 全 部 是 [0,1] 或 者 是 [0,255]; 
1: 与 输入 范围 相同 的 强度 输出 值 ; 
S: 饱和 度 输出 值 ， 范 围 10, 1]; 
H: 色调 输出 值 ， 范 围 [0, 27], 如 果 S = 0 则 值 为 - 1; 
R, G, B, H, S, I 都 是 浮 点 数 ; 
procedure RGB_to_HSI(in R,G,B; out H,S,I) 
{ 
I := max (R, G,B ); 
min := min ( R, G, B ); 
if (I > 0.0) then S := (I — min )/I else S := 0.0; 
. if (S < 0.0) then { H := - 1.0; return; } 
N 根 据 RGB 成 分 的 相对 天 小 计算 色调 。 
diff := I — min; 
\ 是 红 轴 +60 度 内 的 点 吗 ? 
if (R = I) then H := (1/3)*(G - B)diff; 
\ 是 绿 轴 +60 度 内 的 点 吗 ? 
else if (G = I) then H := (2*7/3) + 1/3 *{B — R)/diff: 
\ 是 蓝 轴 + 60 度 内 的 点 吗 ? 
else if (B = I) then H := (4*7/3) + n/3+(R — G)/diff; 
if (H < 0.0) H := H + 27; 
} 
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利用 算法 6.1，(a) 把 RGB 码 (100,150,200) 转化 成 HSI 码 ，(b) 把 RGB 码 (0.0, 1.0, 0.0) 
转化 成 HSI 码 。 

参考 前 面 的 图 6-6， 看 看 HSI 的 值 与 颜色 三 角形 有 什么 关系 。 色 调 与 光 的 主 波 长 有 关 ， 并 
且 近 似 对 应 图 6-6 中 三 角形 边 上 一 点 ， 和 的 较 低 值 在 400nm 附 近 ， 起 始 于 原点 ， 沿 g 轴 上 升 到 大 
约 520nm， 然 后 沿 直角 三 角形 的 斜 边 向 下 进一步 增加 到 800nm。 色 调 与 白色 中 心 到 三 角形 边 上 
茶点 (x, 8) 的 角度 对 应 。 在 图 6-6 中 ，50% 饱 和 金色 的 HH 和 S$S 值 位 于 白色 点 与 金色 点 中 间 。 图 
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6-6 是 对 画家 彩色 调 色 板 的 一 个 近似 。 

图 6-9 通 过 改变 饱和 度 对 一 幅 图 像 进行 变换 。 原 始 输入 图 像 在 左边 ， 中 间 图 像 是 对 所 有 像 
素 的 饱和 度 S 增 加 40 多 后 的 效果 ， 右 边 图 像 是 对 S 降 低 20% 后 的 效果 。 比 较 我 们 的 实验 ， 右 边 
图 像 的 颜色 看 起 来 像 洗 过 一 样 ， 而 中 间 图 像 的 颜色 又 显得 调整 过 分 。 有 一 点 要 注意 到 ， 即 使 
机 器 视觉 系统 工作 在 强度 变化 的 白光 下 ， 在 三 幅 图 像 中 色调 H 是 不 变 的 ， 所 以 色调 应 是 颜色 分 
割 的 一 个 可 靠 特征 。 





图 6-9 (Frank Biocca 提供 ) 参见 彩 图 6-9 
图 ) 输入 的 RGB 图 像 
(中 图 ) 饱和 度 S 增 加 40% 
(HE) 饱和 度 S 降 低 20% 


OO 





设计 算法 ， 利 用 如 下 解析 几何 的 方法 ， 把 [0, 1] 范 围 内 的 r、g、b 颜 色 坐 标 转换 成 H、S、I 4b 
标 。 从 点 [7, g, 如 向 颜色 立方 体 过 [0，0，0] 和 [1，1，1] 的 对 角 线 引 垂 线 ， 计 算 相应 的 H、S、!I 值 。 
6.3.3 电视 信号 的 YIQ 与 YUV 系 统 
美国 国家 电视 标准 委员 会 (NTSC) 电视 标准 采用 的 编码 体制 是 一 个 亮度 参数 Y 和 二 个 色 
度 参数 I 与 Q。 在 黑白 电视 中 只 用 亮度 参数 ， 而 在 彩色 电视 中 三 个 参数 都 要 用 到 。 从 RGB 到 
YIQ 的 近似 线性 变换 由 公式 (6-2) 给 出 。 实 际 上 ， 对 Y 的 编码 比 对 I 与 Q 的 编码 用 到 的 位 数 更 
多 ， 因 为 人 类 视觉 系统 对 亮度 (强度 ) 要 比 对 色 度 更 加 敏感 。 
亮度 Y=0.30R + 0.59G + 0.11B 
红 - 青 1=0.60R 一 0.28G 一 0.32B (6-2) 
品 红 - 绿 Q = 0.21R — 0.52G 十 0.31B 


YUV 编 码 用 于 一 些 数字 视频 产品 ， 以 及 压缩 算法 如 JPEG 和 MPEG 中 。 RGB 到 YUV 的 转换 
公式 如 下 : 
Y =0.30R + 0.59G + 0.11B 


U =0.493*(B — Y) (6-3) 
V =0.877*(R — Y) 


对 于 数字 图 像 与 视频 压缩 来 说 ， 采用 YIQ 和 YUV 比 采用 其 他 颜色 编码 系统 更 加 合适 ， 
为 亮 度 与 色 度 可 以 用 不 同 的 位 数 进行 编码 ， RGB 系统 中 是 不 可 能 的 。 





B 黄色 编码 转换 
对 于 彩色 摄像 机 ， 假 设 一 像素 的 RGB 编码 值 是 (200, 50, 100)， 其 中 255 是 最 训 值 (能 明 
最 大 )。(a) HSI 系 统 中 等 价 的 三 个 值 是 什么 ? (b) YIQ 系 统 中 等 价 的 三 个 值 是 什么 9 
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ARGBAYIQH STNG? ee 下 


假设 你 有 一 台 显示 器 和 观看 RGB 图 像 的 软件 ， 做 如 下 的 实验 。 首 先 建立 HSI 图 像 ， 使 得 右 
上 1/4 是 饱和 红色 ， 左 下 角 是 饱和 黄色 ， 左 上 角 是 50% 饱 和 蓝 色 ， 右 下 角 是 50% 饱 和 绿色 。 利 
用 算法 6.1 把 RGB 图 像 转换 成 HSI 图 像 ， 并 把 HSI 图 像 转换 成 RGB 图 像 。 把 图 像 显示 出 来 ， 并 研 
究 4 个 1/4 图 像 区 的 颜色 。 
6.3.4 基于 颜色 的 分 类 

在 许多 应 用 中 ， 像 素颜 色 包含 很 多 与 分 类 有 关 的 信息 。 在 6.5 节 介绍 的 人 类 皮肤 颜色 模型 ， 
长 期 用 于 从 彩色 图 像 中 寻找 人 脸 。 但 是 这 个 过 程 有 时 也 会 出 错 。 例 如 一 个 棕色 纸板 盒 ， 其 图 
像 像 素 就 能 够 通过 皮肤 颜色 的 测试 ， 也 许 需 要 用 区 域 形状 特征 把 多 面体 纸板 盒 的 表面 与 椭圆 
形状 的 人 脸 区 分 开 。 在 图 6-10 中 ， 通 过 保留 与 训练 样本 像素 接近 的 像素 ， 从 图 像 中 抽取 出 白色 
区 域 。 样 本 像素 从 标记 符号 中 得 到 。 出 现 的 几 个 不 希望 生成 的 区 域 ， 主 要 是 由 其 他 白色 物体 
及 镜面 反射 所 产生 。 特 征 识别 算法 可 以 对 很 多 特征 进行 坟 并 去 掉 多 数 不 想 要 的 成 分 。 

总 的 说 来 ， 对 一 个 单独 像素 的 颜色 进行 解读 容易 出 错 。 图 6-9 左 边 的 那 幅 图 像 是 用 带 闪 光 
灯 的 摄像 机 拍摄 的 ， ieee, et et (AEST DEN 
色 的 定义 范围 扩大 ， 分 类 器 就 会 把 这 些 白色 小 块 放 到 黄色 成 分 之 中 ， 蓝 色 杯子 镜面 反射 的 像 
素 也 有 可 能 包括 到 黄色 之 中 。 在 颜色 空间 的 特殊 区 域 ， 颜 色 解读 会 出 现 问题 。 当 饱和 度 接近 0 
时 ， 色 调 的 计算 和 解读 就 不 可 靠 ; 当 亮 度 较 低 时 ， 饱 和 度 的 解读 也 不 可 靠 。 








图 6-10 从 左边 的 彩色 图 像 中 分 割 出 白色 像素 。 白 色 像 素 的 单个 连通 成 分 用 第 3 章 的 颜色 
dais a id. (David Moore 提 供 分 析 ) 参见 彩 图 6-10 
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oe 
编程 实现 算法 6.1。 (a) 对 于 大 L 及 ALxe {-2, =k 2s 把 RGB 码 (L+ AL,, L + ALg, L+AL,) 
转换 成 HSI 码 。 互 的 值 一 样 吗 ? (b) 对 于 小 L(10 左 右 )， A 同上， 重复 该 实验 。5 的 值 一 样 吗 ? 
6.4 颜色 直方 图 

在 图 像 检索 或 者 目标 识别 中 ， 可 用 颜色 直方 图 表示 一 幅 彩 色 图 像 。 直 方 图 统计 每 种 像素 
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的 数目 ， 每 个 像素 只 需 访 问 一 次 ， 并 在 直方 图 的 合适 箱 格 上 添加 一 个 增 量 ， 就 能 够 快速 生成 
直方 图 。 利 用 颜色 直方 图 在 图 像 数据 库 中 进行 图 像 检 索 的 内 容 将 在 第 8 章 讨 论 。 颜 色 直 方 图 对 
于 平移 、 绕 成 像 轴 的 旋转 、 小 的 离 轴 旋 转 、 尺 度 变化 和 部 分 遮挡 等 是 相对 不 变 的 。 这 里 我 们 
简单 介绍 颜色 直方 图 的 方法 ,最 初 的 颜色 直方 图 匹配 算法 是 由 Swain 和 Ballard 于 1991 年 提出 的 ， 
主要 用 在 目标 识别 中 。 

用 直方 图 来 表示 彩色 图 像 的 一 种 简单 方法 是 ， 把 每 个 RGB 颜色 码 中 的 最 高 两 位 连 起 来 。 
直方 图 将 有 2 = 64 个 箱 格 。 分 别 计算 三 种 颜色 直方 图 也 是 可 以 的 ， 一 种 颜色 对 应 一 个 直方 图 ， 
再 把 它们 组 合成 总 的 直方 图 。 例如， 把 三 个 独立 的 RGB 直 方 图 量化 成 16 级 ,将 总 共产 生 k = 48 
个 箱 格 的 直方 图 ， 就 像 Jain 和 Vailaya (1996) 所 用 的 直方 图 那样 。 图 6-11 是 两 幅 彩 色 图 以 及 根 
据 他 们 的 方法 所 生成 的 直方 图 。 

图 像 直方 图 h(7) 和 模型 直方 图 h(M) 的 交叉 值 定义 为 ， 对 于 K 个 对 应 箱 格 ， 将 所 有 h(D 与 
h(M) 中 的 较 小 者 相 加 ， 如 公式 (6-4) 所 示 。 将 交叉 值 除 以 模型 的 像素 数 进行 规范 化 处 理 ， 就 
得 到 匹配 值 。 这 个 匹配 值 是 图 像 中 含有 多 少 模型 中 的 颜色 的 一 种 测度 ， 它 不 会 因为 图 像 中 的 
背景 像素 在 模型 中 不 存在 而 减 小 。 也 可 定义 其 他 类 似 的 测度 ， 例 如 ， 可 以 用 箱 格 中 的 数值 除 
以 像素 总 数 从 而 把 直方 图 规范 化 成 频数 ， 然 后 利用 欧 几 里 德 (Euclidean) 距离 对 两 幅 图 像 进 
行 比较 。 

intersection (h(1), h(M)) = Smin{h(DU], A(M)Lj]} 
j=l 
Ej- minfA (DL), AMLI} 
E AML 


(6-4) 
match(h(/), h(M)) = 





图 6-11 pe (直方 图 由 A. Vailaya 提 供 ， 
图 片 经 Corel Stock Photos 许 可 ) 参见 彩 图 6-11 
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实验 表明 ， 在 上 面 提 到 的 几 种 变化 情况 下 以 及 采用 不 同 的 空间 量化 方法 ， 直 方 图 匹配 值 
能 够 很 好 地 表示 图 像 的 类 似 程度 。Swain 和 Ballard 也 提出 反 投 影 (backprojection ) 算法 ， 可 
以 确定 与 模型 中 目标 大 小 近似 的 区 域 在 图 像 中 的 位 置 ， 该 图 像 与 模型 直方 图 是 最 佳 匹 配 的 。 
这 样 ， 他 们 提出 两 种 基于 颜色 的 算法 ， 一 种 是 为 了 识别 ， 这 时 图 像 中 包含 已 知 目标 ， 另 一 种 
是 决定 的 目标 位 置 。 如 果 图 像 是 在 不 同 光 照 条 件 下 得 到 的 ， 那 么 首先 就 应 该 去 掉 强 度 影响 。 
人 们 也 应 该 考虑 到 对 直方 图 进行 平滑 处 理 ， 使 得 反射 光谱 有 小 的 移动 时 仍 能 得 到 较 好 的 匹配 。 
太一 li AE 











B12 Magen OER 

已 知 图 像 A， 我 们 把 A 中 的 像素 位 置 进行 随机 交换 产生 图 像 B。( 可 以 像 下 面 这 样 做 ,首先 
把 A 拷贝 到 B。 然 后 对 于 B 中 的 像素 I[r, c]， 随 机 选择 像素 I[x, yl, Wr, cj 与 I[x, y] 进 行 位 置 交 
换 。) 对 A 和 B 的 直方 图 进行 匹配 ， 会 产生 怎样 的 匹配 结果 ? 


商品 识别 
TEER, 3 个 橘子 、3 个 红色 苹果 、3 个 绿色 苹果 、3 个 绿色 辣椒 和 3 个 红色 西红柿 。 
对 于 这 6 类 物品 ， 分 别 拍 出 三 幅 图 像 ， 每 次 都 把 3 个 物品 的 位 置 做 一 下 调整 ， 这 样 就 得 到 18 幅 
图 像 。 对 每 幅 图 像 求 彩色 直方 图 。 用 每 类 集合 中 的 第 一 幅 直 方 图 作为 模型 (总 共有 6 个 模型 )， 
然后 计算 每 个 模型 与 其 他 12 幅 直方 图 之 间 的 匹配 值 。 对 结果 进行 分 析 。 根 据 你 的 实验 结果 ， 
说 明 超 市 商品 识别 系统 能 够 识别 放 在 收银 台 天 平 上 的 物品 吗 ? 


6.5 颜色 分 割 

现在 我 们 讨论 从 彩色 图 像 中 寻找 人 脸 ， 彩 色 图 像 由 工作 站 前 的 摄像 头 拍 取 。 做 这 个 工作 
的 最 终 目标 是 为 了 实现 更 好 的 人 机 交互 。 设 计 的 算法 能 够 找到 与 人 脸 对 应 的 主要 区 域 。 首 先 
是 训练 阶段 ， 用 不 同 的 人 脸 样 本 确定 人 脸 像素 的 本 质 特征 ; 其 次 ， 根 据 新 图 像 中 人 类 像素 的 
(r, 8) 值 落 入 训练 数据 的 位 置 ， 来 识别 这 些 人 脸 像素 。 图 6-12 绘 出 了 包含 不 同人 脸 图 像 的 像 
R ( 8)， 用 的 是 经 公式 (6-1) 规范 化 后 的 红 、 绿 值 。 通 过 第 4 章 介绍 的 方法 确定 边界 ， 很 
容易 定 出 6 类 像素 。 其 中 三 幅 图 中 包含 人 脸 ， 一 个 主要 类 和 两 个 由 阴影 及 胡须 产生 的 像素 类 。 

识别 人 脸 区 域 主要 分 三 个 步骤 。 第 1 步 的 输入 是 用 1、2、3…、7 做 标记 的 标记 图 像 ， 这 是 
根据 训练 数据 进行 分 类 的 结果 (标记 7 用 于 表示 不 属于 其 他 6 类 中 任何 一 类 的 像素 )。 图 6-13 的 
中 间 是 两 幅 不 同人 脸 的 标记 图 像 ， 多 数 属于 背景 的 像素 做 了 正确 标记 ， 同 样 多 数 属于 人 脸 的 
像素 也 做 了 正确 标记 。 但 是 有 许多 错误 标记 的 小 区 域 。 然 后 根据 各 部 分 相对 主要 人 脸 区 域 的 
大 小 和 位 置 ， 对 它们 进行 整合 ， 加 入 到 主要 区 域 或 者 把 它们 删除 。 首 先进 行 连通 成 分 处 理 ， 
就 像 第 3 章 讲 的 那样 ， 把 标记 4、5 或 6 的 像素 做 为 前 景 像素 。 第 2 步 选 择 最 大 的 合适 的 成 分 做 为 
人 脸 目标 。 这 一 步 根据 处 理 的 许多 例子 利用 启发 式 学 习 ， 丢 弃 太 小 或 太 大 的 成 分 。 一 般 留 下 
不 到 100 个 成 分 ， 而 把 多 数 成 分 划 归 到 阴影 类 中 。 第 3 步 去 掉 剩 下 的 成 分 或 把 它们 合并 到 选中 
的 人 脸 目 标 之 中 。 应 用 基于 人 脸 知 识 的 几 种 启发 式 方法 ， 同 时 假设 景物 中 只 有 一 张 人 脸 。 例 
子 结果 显示 在 图 6-13 的 右 侧 。 程 序 执行 速度 很 快 ， 足 以 应 付 这 些 计 算 ， 大 约 是 实时 每 秒 30 次 ， 
包括 计算 眼睛 和 鼻子 的 位 置 ， 这 些 在 书 中 还 没有 涉及 到 。 这 个 例子 推广 出 其 他 许多 问题 。 一 
个 关键 的 阶段 是 原始 图 像 中 几 千 种 颜色 码 的 聚 类 运算 ， 目 的 是 为 了 得 到 只 有 少量 标记 的 标记 
图 像 。 在 人 脸 抽 取 的 例子 中 ， 聚 类 通过 手工 实现 ， 但 有 时 要 进行 自动 聚 类 。 分 割 问题 将 在 第 
10 章 进行 详细 介绍 
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图 6-12 通过 训练 得 到 的 皮肤 颜色 类 别 。 水 平 轴 是 Ruw， 垂 直 轴 是 Guw。t_4 类 是 主要 
的 人 脸 颜 色 ，t_5 和 t_6 是 次 要 的 人 脸 类 ， 它 们 与 人 脸 上 的 阴影 和 胡须 区 域 有 关 。 
(V. Bakic 提 供 ) 参见 彩 图 6-12 











图 6-13 人 脸 抽 取 实 例 。( 图像 由 V. Bakic 提 供 ) 参见 彩 图 6-13 


(ER) 输入 图 像 
(中 图 ) 标记 图 像 
( 右 图 ) 抽取 的 人 脸 区 域 的 边界 


6.6 明暗 分 析 


在 光 物 理学 和 人 类 感知 方面 ， 存 在 几 种 因素 使 问题 变 得 复杂 化 。 各 种 表面 的 镜面 反射 特 
性 是 不 同 的 ， 也 就 是 说 ， 它 们 像 一 面 镜子 的 程度 不 一 样 。 理 想 的 镜面 反射 ， 把 入 射 能 反射 到 
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沿 反 射线 的 受 限 锥 体内 。 理 想 散 射 表面 在 各 个 方向 上 的 反射 能 是 相同 的 。 因 此 一 个 表面 在 反 
射 人 射 光 方 面 不 仅 与 光 的 波长 有 关 ， 还 与 方向 有 关 。 此 外 ， 表 面 接收 辐射 的 能 量 或 强度 还 与 
距离 有 关 ， 离 白色 点 光源 较 远 的 表面 面 元 要 比 距 离 较 近 的 表面 面 元 接收 的 能 量 小 。 其 效果 与 
被 照射 物体 与 传感器 元 素 之 间 的 距离 关系 类 似 。 因 此 ， 图 像 强 度 将 由 于 沿 成 像 光线 的 距离 不 
同 而 不 同 。 表 面 面 元 相对 光源 的 方向 6 也 很 重要 。 
6.6.1 来 自 单一 光源 的 照射 

远 处 单一 光源 照射 到 目标 表面 的 情况 如 图 6-14 所 示 。 通 常 ， 我 们 无 法 找到 可 以 观察 表面 
的 视点 位 置 ， 所 以 只 考虑 表面 如 何 被 光源 照射 。 假 设 光 源 离 得 很 远 ， 从 被 照射 物体 表面 的 所 
有 面 元 到 光源 的 方向 ， 可 以 用 一 个 单位 长 度 的 方向 向 量 s 来 表示 。 到 达 表 面 面 元 4) 的 单位 面积 
的 光 能 〈 强 度 门 ， 与 表面 面 元 的 面积 以 及 表面 面 元 与 照明 方向 s 之 间 夹 角 的 余弦 之 积 成 正比 。 
夹 角 的 余弦 为 nos， 其 中 nm 是 表面 面 元 4) 处 的 单位 法 线 向 量 。 这 样 表面 面 元 接收 的 入 射 光 强度 
的 数学 模型 为 : 

入 射 强 度 i ~ nos (6-5) 





图 6-14 物体 表面 面 元 4 受到 光源 $ 的 照射 ， 接 收 的 能 量 在 垂直 于 光源 方向 上 的 投影 
C = Aicos@ 成 正比 。 接 收 的 照射 强度 就 是 i~nos， 其 中 n 是 表面 的 单位 法 线 向 
量 ，s 是 指向 光源 的 单位 方向 ，68 是 表面 法 线 向 量 mj 与 s 之 间 的 夹 角 
表面 接收 的 照射 能 量 直 接 与 光源 的 功率 成 正比 ， 光 源 的 功率 可 能 知道 也 可 能 不 知道 。 也 
许 光源 向 各 个 方向 发 射 能 量 ， 或 者 像 聚 光 灯 那样 只 向 一 个 锥 形 区 域 发 光 。 两 种 情况 下 光源 的 
功率 都 用 每 球面 度 的 瓦特 数 表 示 ， 或 者 说 是 以 光源 为 中 心 的 单位 球体 锥 形 角 的 单位 面积 所 发 
出 的 能 量 。 这 个 简单 的 表面 面 元 辐 照 模型 可 以 很 容易 扩展 到 曲面 情况 ， 只 要 考虑 矩形 表面 面 
元 达到 无 穷 小 程度 。 表 面 面 元 对 入 射 光 的 反射 部 分 称 为 表面 面 元 的 反射 率 (albedo )。 
定义 65 表面 面 元 的 反射 率 是 指 反射 的 总 照度 与 接收 的 总 照度 之 比 。 
我 们 已 经 假设 反射 率 是 表面 的 固有 属性 ， 对 一 些 表面 来 说 情况 不 是 这 样 ， 因 为 反射 亮度 
的 一 部 分 将 随 着 光照 与 表面 法 线 的 相对 方向 不 同 而 不 同 。 
6.6.2 Ra 
现在 对 上 述 模型 进行 扩展 ， 考 虑 来 自 物体 表面 的 反射 ， 此 外 建立 表面 面 元 对 应 视点 位 置 V 
的 外 观 模型 。 图 6-15 显示 的 是 漫 反射 或 朗 伯 反 射 (diffuse, Lambertian reflection )。 在 以 表面 
面 元 为 中 心 的 半球 体 所 有 方向 上 对 到 达 表 面 面 元 的 光 能 进行 平均 反射 。 表 面 漫 反射 与 光 的 波 


N 


N 
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长 具有 一 定 的 关系 。 反 射 光 强 度 与 人 射 光 强度 成 正比 ， 常 量 系数 是 表面 的 反射 率 ， 深 色 表 面 
的 反射 率 较 小 ， 光 亮 表 面 的 反射 率 较 大 。 
漫 反射 强度 i ~ njos (6-6) 
定义 66 ” 漫 反 射 表面 在 所 有 方 和 同上 均匀 地 反射 光线 ， 结 果 从 所 有 视点 看 它 都 有 一 样 
的 亮度 。 
重要 的 特征 就 是 ， 当 从 半球 体 所 有 方向 上 观察 ， 表面 面 元 具有 同样 的 亮度 ， 因 为 它 的 亮 
度 与 观察 者 的 位 置 无 关 。 参 考 图 6-15， 无论 


是 从 位 置 V 还 是 位 置 V 观 察 ， 表面 面 元 4 将 视点 
有 同样 的 亮度 。 同 样 地 ， 无 论 是 从 位 置 V 还 vi 

是 位 置 岂 观 察 ， 表 面 面 元 4; 也 将 有 同样 的 亮 

度 。 如 果 这 三 个 表面 面 元 由 相同 的 材料 构成 ， $s 

它们 有 同样 的 反射 率 ， 那 么 4; 将 看 起 来 比 4， T 


更 亮 一 些 ， 而 41 将 比 A4; 更 亮 一 些 ， 因为 这 些 
表面 与 照明 方向 所 成 的 角度 不 同 。 无 论 是 从 
位 置 岂 还 是 位 置 岂 观察 ， 表面 面 元 4; 将 根本 图 6-15 漫 反 射 。 在 以 表面 面 元 为 中 心 的 半球 体 所 有 
看 不 到 。( 如 果 nov<0, v 是 到 观察 者 的 方向 ， 方向 上 均匀 分 布 反射 能 。 这 样 对 于 表面 可 见 
则 看 不 到 表面 面 元 4. ) 的 所 有 视点 ， 整 个 平面 将 表现 出 均匀 的 亮度 

图 6-16 给 出 了 一 个 漫 反 射 的 例子 ， 显 示 了 鸡蛋 和 黑 陶 花瓶 的 反射 光 强 度 。 图 像 中 一 行 像 


素 的 强度 分 布 很 像 一 条 余弦 曲线 ， 表 明 物 体 表面 的 形状 与 反射 光 密切 相关 ， 正 如 公式 (6-6) 
所 表达 的 那样 。 
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考虑 漫 反 射 材 料 构成 的 多 面体 ， 让 表面 F 正 对 远 处 的 光源 S$， 使 另 一 表面 4 与 F 相 邻 ， 看 起 
来 只 有 F 的 一 半 亮 。 表 面 4 与 表面 f 之 间 的 法 线 夹 角 是 多 少 ? 
6.6.3 镜面 反射 

很 多 光滑 表面 的 行为 很 像 一 面 镜 子 ， 把 大 部 分 人 射 光 沿 反 射线 反射 出 去 ， 如 图 6-17 所 示 。 
反射 线 (R) 与 表面 的 法 线 (N) 和 入 射线 (S) 在 同一 个 平面 上 ， 并 且 入 射 角 等 于 反射 角 。 
理想 镜面 将 沿 方向 R 把 从 光源 S 接 收 的 光 能 全 部 反射 出 去 。 此 外 ， 反 射 能 量 与 人 射 光 具 有 相同 





大 多 与 明 膀 分 析 153 





的 波长 构成 ， 而 与 目标 表面 的 实际 颜色 无 关 。 因 此 红 苹 果 在 它 反射 白色 光源 的 地 方 将 会 具有 
白色 亮 区 或 者 闪光。 公式 (6-7) 是 计算 机 图 形 学 中 常用 的 镜面 反射 数学 模型 。 公 式 (6-8) 定 
义 了 怎样 根据 表面 法 线 和 光源 方向 计算 反射 光线 R。 参 数 a 称 为 表面 反光 参数 ，a 的 值 为 100， 
对 于 很 亮 的 表面 o 的 值 更 大 一 些 。 注 意 随 着 o 的 增加 ， 当 % 逐 渐 远离 0 时 ，cosgz 下 降 很 快 。 


镜面 反射 强度 i ~ (RoV)” (6-7) 
R = 2N(No(-S)) S (6-8) 


定义 67 ”镜面 反射 ， 像 镜子 一 样 的 反射 。 表 面 反 射 的 光 能 在 绕 反 射线 的 紧 锥 体内 反 
射出 去 。 此 外 ， 反 射 光 的 波长 构成 与 光源 类 似 ， 与 表面 颜色 无 关 。 

定义 68 ”物体 上 的 高 亮 区 ， 是 对 光源 进行 镜面 反射 所 造成 的 亮点 区 。 高 亮 区 预示 着 
物体 的 材质 是 蜡 、 金 属 或 玻璃 等 。 





图 6-17 镜面 反射 或 者 类 似 镜面 的 反射 ， 反 射 能 分 布 于 绕 反 射线 R 的 窗 锥 体内 。 
视点 V 接 收 来 自 表 面 面 元 A4, 的 一 些 反 射 能 ， 而 很 少 接收 来 自 表 面 面 元 
A4: 的 反射 能 。 在 V 处 接收 的 强度 是 e~(ReV)"， 其 中 R 是 反射 线 ，V 是 从 
表面 面 元 到 视点 的 方向 ，o 是 反光 参数 


6.6.4 随 距离 增 大 而 变 暗 

光 能 到 达 表 面 的 强度 随 表面 离 光源 的 距离 变 大 而 减 小 。 当 然 ， 地球 比 水 星 接收 太阳 的 强 
烈 照 射 要 小 。 这 种 现象 的 模型 见 图 6-18。 假 设 光源 单位 时 间 内 发 出 恒 值 的 能 流 ， 包 含 光 源 的 
任何 球面 一 定 在 单位 时 间 内 拦截 同样 多 的 能 量 。 因 为 球 的 表面 积 与 半径 的 平方 成 正比 ， 单 位 
面积 的 能 量 一 定 与 半径 的 平方 成 反比 。 这 样 物体 表面 接收 的 入 射 光 强度 将 随 到 光源 距离 的 平 
方 而 下 降 。 在 图 6-18 中 把 这 个 距离 记 为 41。 同 样 的 模型 应 用 到 物体 表面 面 元 的 反射 光 能 上 ， 空 
间 V 处 的 观察 者 将 观察 到 表面 亮度 与 观察 者 到 表面 面 元 的 距离 4, 的 平方 成 反比 。 这 种 反比 平方 
模型 一 般 用 在 计算 机 图 形 学 中 ， 用 来 计算 要 绘制 表面 的 明暗 变化 ， 使 得 用 户 能 够 感觉 到 3D 距 
离 或 深度 。 





一 个 发 明 家 想 把 下 面 的 设备 卖 给 交警。 以 检测 夜间 的 车 速 。 这 个 设备 在 和 z2 时 刻 发 射 很 
短 的 闪光， 并 用 和 传感器 测量 来 自 汽车 的 反射 信息 。 根 据 反 射 强度 ， 用 图 6-18 的 原理 计算 两 时 
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刻 之 间 产生 的 距离 4 和 4d,。 汽 车 的 速度 简单 地 按 这 段 时 间 内 的 距离 变化 来 计算 。 对 这 种 仪器 的 
设计 思想 进行 评价 ， 它 能 工作 吗 ? é 





图 6-18 点 光源 通过 任意 封 闲 的 球面 发 出 的 总 能 量 是 一 样 的 ， 因 此 表面 上 每 单位 面积 的 
能 量 ， 或 者 说 是 强度 一 定 与 球面 半径 (d) 的 平方 成 反比 。 同 样 ， 表 面 面 元 反 
射 的 光 能 强度 一 定 随 观察 者 到 表面 距离 (d,) 的 增 大 而 减 小 
6.6.5 复杂 因素 
对 于 大 多 数 表面 ， 理 想 的 反射 模型 应 同时 包含 漫 反射 和 镜面 反射 。 如 果 我 们 用 闪光 灯 照 身 
苹果 并 进行 观察 ， 实 际 上 我 们 看 到 的 是 有 微 白 高 亮 区 的 微 红 色 物 体 。 微 红色 反射 来 自 漫 反射 ， 
而 高 亮 区 来 自 镜面 反射 。 如 果 全 部 苹果 都 是 镜面 ， 那 么 我 们 就 不 能 看 到 苹果 的 大 部 分 表面 。 
通常 有 许多 光源 照射 一 个 场景 ， 而 且 有 更 多 的 表面 面 元 对 这 些 光源 的 光 进 行 反射 。 我 们 
除了 能 说 出 场景 中 存在 环境 光 之 外 ， 也 许 不 能 说 出 所 有 的 能 量 交换 。 在 计算 机 图 形 学 中 ， 当 
对 一 个 表面 进行 明暗 处 理 时 ， 利 用 环境 光 是 常见 的 方式 。 
定义 69 ”环境 光 ， 是 由 多 个 光源 产生 的 、 经 许多 表面 交叉 反射 后 ， 在 场景 中 的 每 个 
地 方 存在 的 稳 态 光 能 。 


有 的 表面 实际 上 能 发 出 光 。 这 些 物体 也 许 是 电灯 灯泡 或 者 是 先 吸收 一 种 能 量 再 发 射出 可 
见 光 的 物体 。 它 们 不 仅 反射 光 也 发 射 光 。 最后， 所 有 的 发 射 和 反射 现象 都 与 波长 有 关 。 光 源 
发 射 含 不 同 波长 的 整个 光谱 (除非 是 单 色 激光 器 )， 表 面 反射 或 者 吸收 某 些 波长 的 能 量 比 对 其 
他 波长 更 多 一 些 。 可 以 生产 出 仪器 来 测量 这 些 波长 的 存在 ， 例 如 多 谱 扫 描 仪 能 够 对 来 自 单 个 
表面 面 元 的 反射 产生 200 个 颜色 值 。 但 对 于 人 类 ， 我 们 可 以 只 用 三 种 颜色 值 如 RGB 或 HSI 合 成 


一 种 可 见 光 。 计 算 机 图 形 学 一 般 只 用 RGB 成 分 描述 照射 亮度 和 表面 反射 。 





一 名 业余 摄影 师 日 落后 在 大 峡谷 边 上 给 朋友 拍 了 一 幅 照 片 。 尽 管用 了 闪光 灯 ， 朋 友 的 照 
片 拍 得 也 很 好 ， 但 美丽 的 大 峡谷 背景 却 几 乎 是 黑色 的 。 为 什么 ? 

6.6.6 Phong 明 暗 模型 * 

在 计算 机 图 形 学 中 常用 的 着 色 模型 是 Phong 明 瞳 模型 ， 它 解释 了 几 种 现象 : (a) 环境 光 ， 
(b) 漫 反 射 ，(c) 镜面 反射 和 (d) 随 距离 而 变 暗 。 其 中 (b), (c) 和 (d) 是 针对 独立 光源 
来 说 的 。 假 设 表面 面 元 在 图 像 点 I[x，y] 成 像 的 详细 情况 ， 以 及 所 有 光源 的 位 置 和 性 质 是 已 知 
的 ， 用 Ka 表示 漫 反射 用 Ks 表示 镜面 反射 ， 其 中 Ki 是 对 不 同 波长 1 的 反射 系数 向 量 (通常 
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RGB 值 与 三 个 系数 有 关 )， 那 么 该 表面 面 元 的 反射 性 质 表示 为 : 


Mf 
Llx, y] = dan Kaa + > (z mail Kan o s) + Ksi Rm 0 v) (6-9) 
m=1 m 


AK (6-9) 用 到 了 环境 光 强 度 1 和 一 组 M 个 光源 强度 /4。 可 以 认为 这 个 公式 是 一 个 向 量 
方程 ， 对 单个 波长 4 按 类 似 的 公式 计算 。1i 是 波长 4 的 周围 光 的 强度 ，1 是 波长 4 的 光源 m 的 强 
度 。 第 m 个 光源 离 表 面 面 元 的 距离 是 4,,， 经 表面 面 元 反射 产生 的 反射 线 是 R,。 

6.6.7 基于 明暗 的 人 类 感知 

毫 无 疑问 ， 人 类 对 三 维 物体 形状 的 感知 离 不 开 表 面 的 明暗 信息 。 尽 管 上 面 的 照射 和 反射 
模型 比较 简单 ， 但 描述 的 现象 说 明 我 们 对 明暗 变化 是 有 感觉 的 。 这 个 简化 模型 在 计算 机 图 形 
学 中 很 重要 ， 而 且 为 了 加 快 对 被 照射 表面 的 绘制 速度 用 了 各 种 近似 方法 。 在 受 控 环 境 中 ， 计 
算 机 视觉 系统 其 至 可 以 用 上 面 的 公式 通过 明暗 分 析 计 算 表面 形状 ， 这些 方法 在 第 13 章 进行 讨 
论 。 对 于 图 6-16 中 的 物体 ， 我 们 对 公式 标定 之 后 ， 就 可 以 算出 表面 点 的 法 线 方 向 。 在 不 受 控 
场景 如 户外 场景 中 ， 对 不 同 现象 进行 解释 就 很 困难 。 


6.7 相关 话题 * 
6.7.1 颜色 应 用 

与 只 用 图 像 强 度 、 纹 理 或 形状 特征 相 比 ， 颜 色 特征 使 一 些 模式 识别 问题 变 得 非常 简单 。 
颜色 测度 是 局 部 的 ， 不 需要 聚集 算法 和 形状 分 析 。 例 如 习题 6.13 中 的 问题 ， 在 商店 自动 收费 
或 者 配送 中 心 质 检 系 统 中 ， 像 素 级 颜色 信息 在 水 果 与 蔬菜 分 类 方面 得 到 了 长 期 应 用 。 另 一 个 
例子 是 建立 滤波 器 去 掉 WWW 中 的 色情 图 片 。6.5 节 描述 的 人 脸 识 别 算法 ， 首 先 根据 训练 数据 
进行 皮肤 颜色 检测 ， 然 后 划分 出 皮肤 像素 的 区 域 ， 并 且 计 算 皮肤 区 域 之 间 的 几何 关系 。 如 果 
裸体 部 分 占 了 一 幅 图 的 大 部 分 ， 那 么 这 幅 图 就 被 屏蔽 掉 。 在 访问 图 像 数据 库 以 及 理解 显微镜 
拍摄 的 生物 图 像 方面 ， 颜 色 特 征 都 是 很 有 用 处 的 ， 这 一 点 将 在 第 8 章 做 详细 介绍 。 
6.7.2 人 类 的 色 感 机 制 

了 解 人 类 的 色 感 机 制 是 很 重要 的 ， 主 要 有 以 下 两 方面 原因 : 首先 ， 人 类 视觉 系统 通常 是 
研究 和 模仿 的 有 效 系统 ; 其 次 ， 图 形 和 图 像 显 示 的 主要 目的 是 进行 人 机 交互 。 机 器 视觉 工程 
师 常 常 希望 知道 如 何 才能 复制 或 取代 人 类 的 视觉 能 力 ， 而 图 形 图 像 学 家 总 想 弄 明白 如 何 才能 
做 到 最 佳 的 人 机 交互 。 

总 的 说 来 ， 人 类 对 颜色 是 有 偏爱 的 。 例 如 ， 墙 的 颜色 通常 刷 成 不 饱和 色 而 不 是 饱和 色 ， 
红色 趋 于 刺激 ， 而 蓝 色 趋 于 放松 。 大 约 8% 的 人 是 色 家 ， 这 意味 着 应 仔细 进行 颜色 选择 以 方便 
信息 交流 。 在 人 类 的 视网膜 内 ， 红 绿 感 受 器 的 数目 远大 于 蓝 色 感 受 器 数目 ， 特 别 是 在 高 分 辩 
中 央 止 中 蓝 色 感受 器 的 数目 非常 少 。 因 此 很 多 颜色 计算 在 神经 元 内 进行 ， 神 经 元 对 来 自 感 受 
器 的 输入 信息 进行 集成 处 理 。 在 神经 元 处 理 方面 ， 已 经 提出 各 种 各 样 的 理论 解释 颜色 处 理 机 
制 。 这 种 较 高 级 的 处 理 机 制 ， 人 们 还 没有 完全 弄 明白 ， 人 类 的 视觉 处 理 机 制 仍 在 研究 之 中 。 
虽然 对 于 显示 器 上 单个 像素 的 颜色 并 不 能 准确 感知 ， 但 即使 在 光照 变化 ， 包 括 只 有 两 个 主 波 
长 的 光照 情况 下 ， 人 类 仍然 能 够 很 好 地 判断 一 个 展开 面 的 颜色 。 基 于 边缘 的 强度 处 理 (第 5 音 ) 
比 颜色 处 理 要 快 ， 在 颜色 处 理 完成 之 前 前 者 就 有 了 目标 识别 的 结果 。 理 论 上 常常 强调 ， 人 类 
的 颜色 处 理 机 制 是 如 何在 较 原 始 的 强度 处 理 基 础 上 发 展 的 。 读 者 可 以 通过 阅读 参考 材料 以 及 
其 他 相关 材料 ， 对 人 类 视觉 感知 这 一 广泛 领域 进行 更 深入 的 探索 。 
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6.7.3 多 谱 图 像 

如 第 2 章 讨 论 的 那样 ， 得 到 一 个 像素 的 3 个 颜色 值 的 传感器 是 一 个 多 谱 传感器 。 然 而 ,在 
人 类 感觉 不 到 的 电磁 波段 ， 传 感 器 却 可 以 感知 到 ， 例 如 红外 波段 。 在 卫星 图 像 的 IR 波 段 中 ， 
热 的 沥青 路 显示 亮色 ， 而 冷 的 水 域 显示 暗色。 在 利用 简单 程序 对 表面 图 像 进行 分 类 了 时， 计算 
一 个 像素 的 多 个 测量 值 常 常 是 有 用 的 。 扫 描 系 统 可 能 较 贵 ， 因 为 必须 对 它 进行 认真 设计 ， 才 
能 保证 辐射 的 几 个 频带 确实 来 自 同一 个 表面 面 元 。 可 以 对 MRI 的 扫描 参数 《参考 第 2 章 ) 进行 
修改 以 得 到 多 幅 3D 图 像 ， 对 于 被 扫描 体积 的 每 个 体 素 ， 能 有 效 产生 m 个 强度 。 这 a 个 测量 值 可 
用 来 确定 这 种 体 素 是 否 是 脂肪 、 血 液 或 肌肉 组 织 等 。 应 提醒 读者 知道 ， 要 得 到 一 个 3D 的 MRI 
体积 数据 可 能 需要 整整 一 小 时 的 时 间 ， 这 意味 着 由 于 运动 的 影响 会 测 到 一 些 噪声 ， 特 别 是 在 
不 同 组 织 的 边界 附近 ， 由 于 循环 或 者 呼吸 所 引起 的 微小 运动 ， 在 边界 处 抽样 的 材料 元 素 很 可 
能 在 扫描 过 程 中 发 生变 化 。 
6.7.4 主题 图 像 

主题 图 像 用 擅 彩 色 将 图 像 中 不 同属 性 的 材料 分 开 ， 或 者 将 图 像 中 的 不 同 区 域 分 开 。 例 如 ， 
地 图 或 者 卫星 图 像 的 像素 可 以 根据 人 的 假设 做 标记 ,河流 是 蓝 色 的 ， 郊 区 是 紫色 的 ， 道 路 是 
红色 的 。 这 些 并 不 是 传感器 拍 到 的 自然 颜色 ， 但 是 在 我 们 的 文化 中 对 这 些 图 像 内 容 已 经 形成 
共识 。 天 气 图 显示 温度 主题 ， 红 色 表 示 热 ， 蓝 色 表 示 冷 。 同 样 ， 主 题 图 像 可 以 对 表面 深度 、 
局 部 表面 方向 或 者 几何 形状 、 纹 理 、 一 些 特 征 的 密度 或 者 任何 其 他 标量 或 标 称 分 类 进行 编码 。 
图 6-13 的 中 间 两 幅 图 是 主题 图 像 ， 实 际 颜色 空间 中 的 黄 、 蓝 和 紫色 仅仅 是 为 了 区 别 三 个 类 别 。 
重要 的 是 要 记 住 主题 图 像 显示 的 不 是 实际 物理 传感器 的 数据 ， 而 是 经 转换 或 者 分 类 后 的 数据 ， 
目的 是 为 了 人 类 能 够 进行 更 好 的 观察 。 
6.8 参考 文献 

更 详细 的 光线 处 理 和 光学 分 析 ， 可 以 参考 Hecht 和 Zajac (1974) 的 著作 。 实 用 的 数字 颜色 
编码 参考 了 Murray 和 VanRyper (1994) 的 著作 ， 读 者 可 从 这 本 书 中 找到 数字 图 像 存储 的 文件 
格式 方面 的 详细 内 容 。 在 Foley (1996) 等 人 编写 的 计算 机 图 形 学 一 书 中 ， 详 细 介 绍 了 彩色 显 
示 的 硬件 设计 问题 ， 特 别 是 彩色 显示 的 阴 畦 技术 。Levine (1985) 的 著作 讨论 了 几 种 不 同 的 
生物 视觉 系统 ， 以 及 它们 做 为 测量 仪器 的 特点 。Overington (1992) 的 著作 就 信号 处 理 技术 做 
了 更 详细 的 讨论 。Livingston (1988) 在 心理 著作 方面 开 了 一 个 好 头 。 彩 色 直 方 图 匹配 的 内 容 
参考 了 Swain 和 Ballard (1991) 的 论文 ， 以 及 Jain 和 Vailaya (1996) 的 论文 。 人 脸 抽取 的 细节 
可 以 在 Bakic 和 Stockman (1999) 的 技术 报告 中 找到 。 用 MRI 对 人 脑 的 多 谱 分 析 请 参考 Taxt 和 
Lundervold (1994) 发 表 的 论文 。 
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第 7 章 纹理 分 析 


纹理 是 另 一 种 图 像 特征 ， 可 用 来 将 图 像 分 割 成 感 兴趣 的 区 域 ， 并 对 这 些 区 域 进行 分 类 。 
在 有 的 图 像 中 ,纹理 可 以 定义 区 域 的 特性 ， 且 对 于 获 
得 正确 的 分 析 是 非常 关键 的 。 图 7-1 中 的 图 像 有 三 种 
显著 不 同 的 纹理 : 老虎 的 纹理 ， 灌 木 丛 的 纹理 以 及 水 
域 的 纹理 。 这 些 纹理 可 以 量化 表示 ， 并 用 来 识别 物体 
所 属 的 类 别 。 

纹理 给 我 们 提供 图 像 中 颜色 或 亮度 的 空间 分 布 信 
息 。 假 设 区 域 的 直方 图 表示 它 有 50% 的 白色 像素 和 
50% 的 黑色 像素 ， 图 7-2 表示 具有 这 样 的 亮度 分 布 的 
三 个 不 同 的 图 像 ， 它 们 可 被 认为 是 三 种 不 同 的 纹理 。 
最 左边 的 图 像 有 两 大 块 : 一 个 白 块 和 一 个 黑 块 。 中 间 
图 像 有 18 个 白色 小 块 和 18 个 黑色 小 块 组 成 棋盘 状 。 最 图 7 包 信 不 同城 的 图 像 ， 每 个 区 域 都 
右边 的 图 像 有 六 个 长 条 块 ， 三 个 白 块 和 三 个 黑 块 ， 组 NADRA (EART 
成 条 状 。 Corel Stock Photos ) 











图 7-2 三 种 不 同 的 纹理 具有 相同 的 黑白 比例 分 布 
图 7-2 的 纹理 是 人 为 创建 的 ， 包 含 由 黑色 块 和 白色 块 构造 的 几何 模式 。 纹 理 在 自然 场景 中 
很 常见 ， 尤 其 是 室外 场景 ， 既 包含 自然 目标 又 包含 人 工 上 目标。 沙子、 石头、 草地、 叶子 、 砖 
块 以 及 许 许 多 多 的 物体 创建 了 诸多 纹理 图 像 。 图 7-3 显 示 了 这 样 的 一 些 自然 纹理 。 注 意 两 个 不 
同 的 砖 块 纹理 以 及 两 个 不 同 的 叶子 纹理 看 起 来 都 非常 不 同 。 所 以 ， 仅 仅 用 只 有 物体 类 别 无 法 
描述 纹理 。 本 章 讨论 什么 是 纹理 、 纹 理 的 表示 和 计算 ， 以 及 纹理 在 图 像 分 析 中 的 使 用 。 


7.1 纹理 、 纹 理 素 和 统计 

图 7-2 的 人 工 纹 理由 基本 的 白色 或 黑色 矩形 块 组 成 。 在 棋盘 图 中 ， 黑 白 小 方块 在 2D 网 格 中 
交替 出 现 。 在 条 状 模式 中 ， 区 域 是 由 长 条 块 在 垂直 方向 以 交替 颜色 组 成 。 分 割 这 些 单一 颜色 
的 区 域 以 及 识别 这 些 简 单 的 模式 是 很 容易 的 。 

现在 ， 考 虑 图 7-3 的 两 种 叶子 纹理 。 第 一 个 是 许多 的 小 圆 叶 子 ， 第 二 个 是 少量 的 较 大 而 突 
出 的 叶子 。 这 些 叶 子 的 空间 分 布 难以 用 文字 描述 ， 而 且 是 不 规则 的 ， 但 是 图 像 的 一 些 性 质 ， 
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使 人 们 认为 图 像 中 存在 某 种 明显 的 分 布 。 

纹理 分 析 的 部 分 难点 是 准确 地 定义 什么 是 纹理 。 主 要 有 两 种 定义 方法 : 

1. 结构 方法 : 纹理 是 具有 某 种 规则 或 重复 关系 的 基本 纹理 素 (texel) 的 集合 。 

2. 统计 方法 : 纹理 是 区 域 中 亮度 值 分 布 的 一 种 定量 度量 方法 。 

第 一 种 方法 具有 一 定 魅 力 ， 它 对 于 人 工 创建 的 有 规则 的 模式 是 有 效 的 ， 但 第 二 种 方法 更 
通用 ， 更 易于 计算 ， 在 实际 中 更 常用 。 





砖 块 
图 7-3 自然 纹理 (来 自 MIT 媒 体 实验 室 VisTex 数 据 库 : 


http://vismod.www.media.mit. edu/vismod/imagery/VisionTexture/vistex. html) 


7.2 基于 纹理 素 的 描述 

纹理 可 认为 是 一 组 具有 某 种 特殊 空间 关系 的 纹理 素 的 集合 。 因 而 ， 纹 理 的 结构 描述 包括 
纹理 素 的 描述 以 及 空间 关系 的 定义 。 当 然 ， 纹 理 素 必须 是 可 分 割 的 ， 纹 理 素 之 间 的 空间 关系 
必须 是 能 有 效 计算 的 。Tuceryan 和 Jain 提 出 了 一 种 非常 好 的 基于 几何 的 描述 方法 。 纹 理 素 是 可 
通过 一 些 简单 的 步骤 如 阔 值 化 等 抽取 的 图 像 区域 。 纹 理 素 之 间 的 空间 关系 特性 ， 根 据 下 面 纹 
理 素 的 Voronoi 图 得 到 。 

假设 已 经 抽取 出 一 组 纹理 素 ， 且 每 个 纹理 素 都 可 用 一 个 有 意义 的 点 来 表示 ， 例 如 它 的 重 
心 。 设 5 是 这 些 点 的 集合 。 对 8 中 的 任意 点 对 P 和 @， 可 以 构造 连接 这 两 点 的 线段 的 垂直 平分 线 ， 
这 个 垂直 平分 线 将 平面 分 成 两 个 半 平 面 ， 其 中 一 个 是 距离 P 较 近 的 点 的 集合 ， 另 一 个 是 距离 0 
较 近 的 点 的 集合 。 相 对 于 P 和 @ 的 垂直 平分 线 ， 设 Fe(P) 是 距离 P 较 近 的 半 平 面 。 对 5 中 的 每 个 
点 8 我们 都 可 以 重复 这 个 过 程 。P 的 Voroiioi 多 边 形 中 的 所 有 点 ， 距 离 P 比 距离 5 中 的 其 他 点 更 
近 。P 的 Voronoi 多 边 形 定义 如 下 : 

V(P)= 门 HXP) 
QES, Q#P 

图 7-4 显 示 一 组 圆 形 纹理 素 的 Voronoi 多 边 形 。 对 于 内 
部 的 纹理 素 ， 该 模式 表现 为 六 边 形 ; 对 于 位 于 图 像 边 界 的 
纹理 素 则 表现 为 不 同 的 形状 。 

一 旦 从 图 像 中 抽取 出 纹理 素 ， 并 计算 出 它们 的 Voronoi E74 一 组 圆 形 纹理 素 的 Voronoi 图 
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图 ， 就 可 以 计算 多 边 形 的 形状 特征 ， 利 用 这 些 形状 特征 将 多 边 形 分 类 ， 这 些 类 别 确定 了 各 纹 
理 区 域 。 图 7-4 所 示 的 模式 类 型 扩展 到 大 图 像 中 将 产生 一 个 纹理 均匀 的 区 域 ， 其 特点 是 具有 规 
则 六 边 形 的 形状 特征 。 


基于 纹理 素 的 描述 
寻找 或 创建 5 幅 图 像 ， 使 图 像 纹理 具有 明显 的 纹理 素 ， 这 些 纹理 素 可 以 利用 简单 方法 进行 
检测 ， 例 如 根据 灰 度 值 或 颜色 范围 取 阀 值 。 至 少 要 找到 一 种 包含 了 多 种 纹理 素 的 纹理 。 画 出 
该 图 像 小 部 分 区 域 的 Voronoi 图 。 





7.3 定量 纹理 测度 

绝 大 多 数 情况 下 ， 在 实际 图 像 中 分 割 纹理 素 比分 割 人 工 生成 的 模式 要 困难 得 多 。 相 反 ， 
描述 纹理 的 数量 或 统计 值 可 从 灰 度 值 (或 颜色 ) 本 身 计算 出 来 。 这 种 方法 虽然 直观 性 较 差 ， 
但 计算 方便 ， 可 有 效用 于 纹理 的 分 割 和 识别 。 
7.3.1 边缘 密度 和 方向 

由 于 边缘 检测 是 众所周知 的 、 便 于 应 用 的 特征 检测 方法 ， 所 以 把 边缘 检测 作为 纹理 分 析 
的 第 一 步 是 很 自然 的 。 在 给 定 大 小 的 区 域内 ， 边 缘 像 素 点 的 个 数 在 某 种 程度 上 反映 了 区 域 的 
纹理 分 布 密集 度 。 边 缘 的 方向 一 般 也 有 助 于 刻画 纹理 模式 ， 它 们 往往 是 边缘 检测 过 程 的 另 一 
个 结果 。 

考虑 含有 N 个 像素 的 区 域 。 如 果 对 该 区 域 应 用 基于 梯度 的 边缘 检测 算 子 ， 对 每 个 像素 p 产 
生 两 个 输出 : 1) 梯度 幅 值 Mag(p) 和 2) 梯度 方向 Dir(p) ， 如 在 第 5 章 中 所 定义 的 。 一 种 非常 
简单 的 纹理 特征 是 每 单位 面积 的 边缘 数 (edgeness per unit area), HFA AT, BACHE 
征 定义 如 下 : 

Fae = P Mas(p) > 7 i 

每 单位 面积 的 边缘 数 度量 了 纹理 分 布 的 密集 度 ， 但 不 包括 纹理 的 方向 。 

对 这 个 测度 进行 扩展 ， 使 其 既 包 含 密集 度 又 包含 方向 ， 可 以 采用 梯度 幅 值 和 梯度 方向 两 
种 直方 图 。 设 Hos(R) 表示 区 域 R 的 梯度 幅 值 的 规范 化 直方 图 ，Hi, 表 示 区 域 R 的 梯度 方向 的 规 
范 化 直方 图 。 这 些 直 方 图 的 箱 格 数 都 是 固定 的 小 数目 (如 10)， 这 些 箱 格 表示 幅度 的 组 类 和 方 
向 的 组 类 。 直 方 图 都 根据 区 域 RK 的 大 小 Ng 进行 了 规范 化 。 那 么 

Fmag dir = (Hmag(R), Hair(R)) (7-2) 


是 关于 区 域 R 中 纹理 的 定量 描述 。 

观察 图 7-5 所 示 的 两 幅 5 x 5 图 像 。 左 边 的 图 像 比 右边 的 图 像 具 有 更 多 的 边缘 。 它 有 25 个 像 
素 ， 每 个 像素 内 就 有 一 条 边缘 ， 那 么 它 的 每 单位 面积 的 边缘 数 就 是 1.0。 右 边 的 图 像 在 25 个 像 
素 内 共有 6 条 边缘 ， 那 么 它 的 每 单位 面积 的 边缘 数 是 0.24。 对 于 梯度 幅 值 直方 图 ， 假 设 有 两 个 
箱 格 ， 分 别 代表 瞳 边缘 和 亮 边 缘 。 对 于 梯度 方向 直方 图 ， 采 用 三 个 箱 格 ， 分 别 代表 水 平 、 重 
直 和 对 角 方 向 的 边缘 。 左 边 的 图 像 有 6 条 瞳 边缘 和 19 条 亮 边 缘 ， 那 么 它 的 规范 化 梯度 幅 值 直方 
图 是 (0.24,0.76)， 意 味 着 24% 的 边缘 是 瞳 边缘 ，76% 的 边缘 是 亮 边缘 。 它 有 12 条 水 平 边 缘 和 
13 条 垂直 边缘 ， 没 有 对 角 边 缘 ， 这 样 它 的 规范 化 梯度 方向 的 直方 图 是 (0.48, 0.52, 0.0)， 意 味 
着 48% 的 边缘 是 水 平 的 ，52% 是 垂直 的 ， 对 角 方向 占 0%。 右 边 的 图 像 无 暗 边 缘 ， 有 6 条 亮 边 缘 ， 
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它 的 规范 化 梯度 幅 值 直方 图 是 (0.0, 0.24)。 它 没有 水 平和 垂直 边缘 ， 只 有 6 条 对 角 边缘 ， 这 样 
它 的 规范 化 梯度 方向 直方 图 是 (0.0, 0.0, 0.24). 对 于 MT eae: 

这 两 幅 图 像 ， 每 单位 面积 的 边缘 数 足 以 把 它们 分 开 ， PLS Peep 

但 直方 图 测度 在 一 般 意 义 上 提供 了 一 个 更 有 力 的 描述 
机 制 。 两 个 n- 箱 格 直方 图 ,和 太 , 可 通过 计算 它们 的 ZL 
距离 来 进行 比较 。 





图 7-5 具有 不 同 边缘 和 边缘 方向 统计 特征 


Li(Hi, Ho) = 》 | Mili] — Wil (7-3) spies 


i=l 





基于 边缘 的 纹理 测度 
获得 一 组 有 许多 人 为 结构 的 图 像 ， 它 们 含有 清晰 明确 的 边缘 。 编写 程序 ， 利 用 公式 (7-2) 
计算 每 幅 图 像 的 纹理 测度 Foy,， 并 利用 公式 (7-3) 的 乙 距 离 进行 比较 。 
7.3.2 局 部 二 值 分 解 
男 一 个 简单 但 有 效 的 纹理 测度 是 局 部 二 值 分 解 。 对 图 像 中 的 每 个 像素 p， 检 查 它 的 8 个 邻 
点 ， 看 是 否 有 比 p 大 的 亮度 值 。 从 8 个 邻 点 得 到 的 结果 用 于 构造 8 位 二 进 制 数 b1bbsbsbsbeb;bs， 
如 果 第 i 个 邻 点 的 亮度 值 小 于 或 等 于 p 的 亮度 值 ， 则 b; = 0， 反 之 b; = 1. 用 这 些 数 字 的 直方 图 表 


示 图 像 纹 理 。 对 于 两 幅 图 像 或 区 域 ， 可 通过 计算 上 面 定义 的 直方 图 间 的 ZL, 距离 进行 比较 。 

利用 前 面 习题 的 图 像 ， 为 写 一 个 程序 计算 每 幅 图 像 的 LBP 纹 理 测 度 直方 图 。 利用 该 测度 
计算 图 像 对 之 间 的 距离 。 与 你 前 面 得 到 的 结果 进行 比较 。 
7.3.3 共生 和 矩阵 和 特征 

#4 (co-occurrence) 矩阵 是 一 个 二 维 的 阵列 C， 其 中 的 行 和 列表 示 可 能 的 图 像 值 y 的 集 
合 。 例 如 ， 对 于 灰 度 图 像 ，V 是 可 能 的 灰 度 值 的 集合 ; 对 于 彩色 图 像 ， V 是 可 能 的 颜色 值 的 集 
fro Cli, j) BEALS ELA AE ER EH 2 K RIE RA. 例如 ， 定 义 空 间 关 系 为 值 紧 
接着 值 /的 右边 出 现 。 为 更 精确 起 见 ， 我 们 特别 考虑 V 是 一 组 灰 度 值 的 集合 且 空 间 关系 由 向 量 d 
确定 的 情况 ，a 描 述 了 值 为 的 像素 和 值 为 j 的 像素 之 间 的 位 移 关系 。 

设 d 是 一 个 位 移 向 量 (dr, dc )， 其 中 dr 是 行 方向 的 位 移 (向 下 )，dc 是 列 方向 的 位 移 (向 
右 )。 设 V 是 灰 度 值 的 集合 。 图 像 1 的 灰 度 共生 和 矩阵 C, 定 义 如 下 : 

Cali, j] =|{[r, c] | Z[r, c] = i 以 及 I[r +dr,c+dc] = j} (7-4) 
Pe)7-6 Sib AS HE EEES, 用 到 了 4 x 4 的 图 像 /以 及 三 个 不 同 的 共生 矩阵 Ci、 Cuo 和 Cn。 
在 Co. ot, EREN, 0] 的 值 为 2， 表示 图 像 中 = 0 直接 出 现在 ; = 1 的 右边 两 次 。 位 置 


[0,1] 的 值 为 0， 表 示 图 像 中 j = 1 从 未 紧 接着 ; = 0 的 右边 出 现 。 共 生 和 矩阵 中 的 最 大 值 是 4， 位 于 
[0,0] 处 ， 表 示 图 像 中 0 出 现在 另 一 个 0 的 右边 4 次 。 


习题 7.4 共生 秆 阵 


对 图 7-6 构 造 灰 度 共生 矩阵 Cu. 3、Co jy 和 Cs 30 
标准 的 灰 度 共生 矩阵 有 两 个 重要 的 变形 ， 第 一 个 是 规范 化 的 灰 度 共生 矩阵 Xi， 定义 如 下 : 
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Nali, j] = 


对 称 灰 度 共生 和 矩阵 5,， 定 义 如 下 : 


Cali, j] 


3, 5, Call. j] 
将 共生 矩阵 的 值 规范 化 到 0 和 1 之 间 ， 这 样 在 大 矩阵 中 就 可 以 把 这 些 值 理 解 为 概率 。 第 二 个 是 


Sali, j] = Cali, j] + Cali, j] 


将 一 对 对 称 的 连接 组 合 在 一 起 。 





图 7-6 






规范 化 共生 矩阵 


BRIE PRI = BRAS EIR JEE Se 


(7-5) 


(7-6) 


对 图 7-7 的 图 像 ， 计算 规范 化 共生 矩阵 Ni 11， 假设 黑色 像素 的 灰 度 值 为 96， 灰色 像素 的 灰 
度 值 为 1， 白 色 像素 的 灰 度 值 为 2。 规 范 化 共生 拢 阵 如 何 表示 图 像 的 纹理 模式 ? 


共生 年 阵 可 捕捉 纹理 特征 ， 但 不 利于 进一步 的 分 析 ，E 


中 计算 数值 特征 ， 可 以 用 更 紧凑 的 方法 表示 纹理 。 
下 面 是 从 规范 化 共生 和 矩阵 中 推导 出 的 标准 特征 。 





能 量 = > >》 NGL, j) (7-7) 
ij 
W=- J Y Nali, jllogzNali, j] (7-8) 
O J 
对 比 度 = > SOG 一 j) Nali, j) (7-9) 
i j 
Nali, j] 
o> = 7-10 
均匀 性 > >- oa (7-10) 


相关 性 二 Yi jG ~ MG — Hj) Nall, j] ( 
Oi0j. 
其 中 4、Jbw 是 行 和 列 的 均值 ，o.、 0 是 行 和 列 的 标 
HEF. FINA). Nj) 定义 为 : 


7-11) 






图 7-7 具有 对 角 线 纹理 模式 的 图 像 


Nali] = > Nali, j] 


J 


上 如 对 两 种 纹理 的 比较 。 从 共生 和 矩阵 


N 
O 
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Nalj] = >》 Nali, j] 


从 共生 和 矩阵 中 推导 纹理 测度 的 一 个 问题 是 如 何 选 择 位 移 向 量 4。Zucker 和 Terzopoulos 建 议 
的 方法 是 ， 利 用 多 统计 测试 来 选择 具有 最 多 的 结构 的 4 值 ， 也 就 是 使 下 列 值 最 大 化 : 


» Nii, j] 
x@O = (o> ain NalilNali) 1) 


7.3.4 Laws 纹理 能 量 测度 

另 一 种 生成 纹理 特征 的 方法 是 ， 利 用 局 部 模板 来 检测 不 同类 型 的 纹理 。Laws 提 出 了 纹理 
能 量 方法 ， 度 量 一 个 大 小 固定 的 窗口 内 的 变化 量 。 用 9 个 5 x 5 的 卷 积 模板 计算 纹理 能 量 ， 对 于 
被 分 析 图 像 的 每 个 像素 ， 都 用 含 9 个 数 的 向 量 表 示 纹 理 能 量 。 模 板 根据 下 面 的 向 量 算出 ， 这 与 
第 5 章 的 内 容 类 似 。 


5 (波纹 ) =[ 1-4 6-4 1l] 
最 的 名 全 代表 了 它们 的 含义 L5 向 量 表示 加 权 中 心 的 局 部 均值 。E5 向 量 检测 边缘 ，S5 
向 量 检测 点 ，R5 向 量 检 而 波纹 。 计 算 向 量 对 的 外 积 得 到 2D 卷 积 模板 。 例 如 ， 模 板 E5L5 是 按 下 
面 方式 计算 E5 和 L5 的 乘积 得 到 的 : 


-1 -1 -4 -6 -4 -1 
一 2 -2 -8 -12 -8 -2 
of x [1 464 i] = |0 0 0 0 0 
2 2 8 12 8 2 
1 1 4 6 4 1 


Laws 过 程 的 第 一 步 是 去 除 光照 的 干扰 : 通过 在 图 像 上 移动 一 个 小 窗口 ， 从 每 个 像素 中 减 
去 窗口 的 局 部 平均 值 ， 这 样 产生 一 幅 经 过 预 处 理 的 图 像 ， 其 中 每 个 邻 域 的 平均 亮度 值 接近 0。 
窗口 的 大 小 取决 于 图 像 的 类 别 ， 对 自然 场景 采用 15 x 15 的 窗口 。 然 后 用 16 个 5 x 5 的 模板 对 预 
处 理 后 的 图 像 进行 滤波 ， 得 到 16 幅 经 过 滤波 的 图 像 。 设 Fi[i, 四 是 在 像素 [i, 有 四处 用 第 k 个 模板 的 
滤波 结果 ， 那 么 对 滤波 器 k 的 纹理 能 量 图 EE 定义 如 下 : 


ct+7 r47 


Elr,c]= 》 >》 1 Fili, Jl (7-12) 
j=c~7i=r—7 
每 个 纹理 能 量 图 都 是 一 幅 完 整 的 图 像 ， 表 示 用 第 k 个 模板 对 输入 图 像 进行 处 理 。 

一 旦 产生 了 16 幅 能 量 图 ， 某 些 对 称 对 则 可 以 互相 组 合 ， 最 终 产 生 9 个 图 ， 每 一 对 用 它们 的 
平均 值 代替 。 例 如 ，E5L5 测 量 水 平 边缘 ，L5E5 测 量 垂 直 边 缘 。 这 两 个 图 的 平均 值 则 测量 总 边 
缘 。9 个 合成 的 能 量 图 是 : 

LSES/ESLS LSS5/S5L5 
L5R5/R5L5 ESES 
E5S5/S5E5 E5R5/R5E5 
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S5S5 S5R5/R5S5 
RS5R5 
所 有 处 理 的 结果 给 出 9 个 能 量 图 ， 或 者 从 概念 上 说 ， 是 一 幅 图 像 ， 它 的 每 个 像素 点 都 有 含 
9 个 纹理 特性 的 向 量 来 描述 。 表 7-1 表 示 图 7-3 中 草地 、 石 头 和 砖 块 图 像 中 主要 纹理 的 9 个 纹理 特 
征 。 用 这 些 纹理 特征 可 将 图 像 聚 类 成 纹理 均匀 的 区 域 。 图 7-8 显 示 多 纹理 图 像 聚 类 后 的 分 割 图 。 


表 7-1 图 7-3 中 图 像 的 Laws 纹 理 能 量 测度 





图 像 E5E5 S5S5 R5R5 E5L5 SS5L5 R5L5 S5E5 R5E5 R5S5 
叶子 1 250.9 140.0 1309.2 703.6 512.2 1516.2 187.5 568.8 430.0 
叶子 2 257.7 121.4 988.7 820.6 510.1 1186.4 172.9 439.6 328.0 
草地 197.8 107.2 1076.9 586.9 410.5 1208.5 144.0 444.8 338.1 
砖 块 1 128.1 60.2 512.7 442.1 273.8 724.8 86.6 248.1 176.3 
砖 块 2 72.4 28.6 214.2 263.6 130.9 271.5 43.2 93.3 68.5 
石头 224.6 103.2 766.8 812.8 506.4 1311.0 150.4 413.5 281.1 





学 





b) 分 割 成 4 个 类 别 





和 


d) 分 割 成 4 个 类 别 





e) 原 图 f) 分 割 成 3 个 类 别 
图 7-8 利用 Laws 纹 理 能 量 测度 分 割 图 像 。( 原 图 来 自 Corel Stock Photos 和 MIT 媒 
体 实验 室 VisTex 数 据 库 ) 参见 彩 图 7-8 








| Laws 纹 理 能 量 测度 

编程 计算 Laws 纹 理 能 量 测度 ， 输 入 是 灰 度 图 像 ， 输 出 是 9 幅 图 像 ， 每 幅 对 应 一 种 纹理 能 量 
测度 。 获 得 一 组 既 有 人 造 纹理 又 有 自然 纹理 的 图 像 ， 对 它们 进行 一 系列 的 测试 。 对 于 每 次 测 
试 ， 设 其 中 一 幅 为 测试 图 像 ， 其 他 图 像 为 数据 库 图 像 。 编 写 交互 式 前 端 程序 ， 人 允许 用 户 选择 
测试 图 像 的 一 个 像素 ， 然 后 在 数据 库 图 像 中 寻找 那些 与 所 选 像素 纹理 类 似 的 图 像 ， 相 似 性 度 
量 采 用 9 个 纹理 能 量 测度 的 LL 距离。 策 方 法 是 把 测试 图 像 像素 的 9 个 值 ， 与 图 像 库 中 每 幅 图 像 
的 每 个 像素 的 9 个 值 进 行 比较 ， 一 旦 某 个 像素 与 测试 像素 具有 足够 类 似 的 纹理 能 量 测度 ， 则 先 
择 该 图 像 。 你 能 想 出 一 种 更 有 效 的 方法 吗 ? 
7.3.5 自 相 关 和 功率 谱 

图 像 的 自 相关 函数 可 用 来 检测 纹理 元 素 的 重复 模式 ， 描 述 纹理 的 精细 度 和 粗糙 度 。 利 用 
第 5 章 的 思想 ， 一 幅 (N + 1) x (N + 1) 图 像 对 于 位 移 d = (dr, de) 的 自 相关 函数 p(dr, dc) 按 如 下 公 
式 给 出 : 


pp D Ir, clI [r + dr,c + dc] 
p(dr, dc) 一 > _—N eae ee 
I2[r, 
Ye =0 Loe=o /7E7,¢] — 
_ TInc]o lalr,c] a 


~ I[rclo I [rc] 


如 果 纹 理 较 粗 ， 那 么 自 相关 函数 下 降 缓慢 ， 否 则 ， 下 降 迅 速 。 对 于 规则 的 纹理 ， 自 相关 

函数 将 有 波峰 和 波 谷 。 由 于 1[r + dr, c + dc] 在 图 像 的 边界 处 未 定 头 ， 必 须 定义 一 种 方法 计算 这 
些 虚 的 图 像 值 。 
。” 自 相关 函数 与 傅 里 叶 变换 的 功率 谱 相 关 。 若 1(r, c) 是 图 像 函数 ，F(u, v) 是 它 的 傅 里 叶 变 换 ， 
则 IF(u, vw)P 定 义 为 功率 谱 ， 其 中 "| 是 复数 的 模 。 频 域 可 分 成 n, 块 贺 环 区 域 (对 频率 信息 ) 以 及 
n BEKR (对 方向 信息 )， 计 算 每 块 区 域 的 总 能 量 来 产生 一 绢 纹理 特征 ， 如 第 5 音 所 介绍 的 。 
7.4 纹理 分 割 

任何 纹理 测度 ， 只 要 对 每 个 像素 提供 了 一 个 值 或 一 个 向 量 值 ， 描 述 了 该 像素 点 邻 域 的 纹 
理 ， 都 可 用 于 将 图 像 分 割 成 具有 相似 纹理 的 区 域 。 和 任何 其 他 分 割 算法 一 样 ， 纹 理 分 割 算法 
可 分 成 两 大 类 : 基于 区 域 的 方法 和 基于 边界 的 方法 。 基 于 区 域 的 方法 试图 将 具有 相似 纹理 特 
性 的 像素 点 分 组 或 聚 类 。 基 于 边界 的 方法 试图 找到 介 于 不 同 纹理 分 布 的 像素 间 的 纹理 边界 . 
我 们 把 分 割 算法 留 到 第 10 章 图 像 分 割 时 再 讨论 。 图 7-8 表 示 几 幅 图 像 的 分 割 结果 ， 其 中 利用 了 
Laws 纹 理 能 量 测度 以 及 将 像素 点 组 成 区 域 的 聚 类 算法 。 

在 图 7-8a 和 b 中 ， 老 虎 图 像 被 分 成 不 同 的 区 域 ， 表 示 老 虎 、 水 和 其 他 混合 区 域 。 在 图 7-8c 
和 d 中 ， 多 目标 图 像 被 分 成 多 块 区 域 ， 大 致 对 应 章 地、 两面 旗帜 、 黑 色 的 网 状 往 和 和 背景 。 在 
图 7-8e 和 f 中 ， 向 日 次 图 像 被 分 割 成 三 种 不 同类 型 的 纹理 ; 图 像 顶部 和 底部 的 黑暗 边界 、 在 田 
野 远 处 的 小 条 向 日 黄花 ， 以 及 在 田野 近 处 的 大 条 向 日 黄花 。 表 7-2 表 示 每 幅 图 像 主要 区 域 的 平 
均 Laws 纹 理 能 量 测度 。 表 7-3 比 较 了 几 幅 不 同 图 像 中 老虎 区 域 的 Laws 测 度 . 

向 日 鞭 图 像 中 ， 一 些 大 的 花 条 ， 深 色 花 心 被 划分 为 深 色 的 边界 纹理 ， 这 是 因为 用 来 计算 
纹理 的 模板 比 那些 大 花朵 的 花心 小 。 一 般 说 来 ， 这 些 分 割 结果 是 不 完美 的 ， 它 们 受到 算 子 的 
限制 。 同 时 利用 颜色 和 纹理 进行 的 分 割 可 取得 更 好 的 效果 ， 但 自然 场景 分 割 还 是 悬而未决 的 
275) 问题 。 对 于 一 般 更 复杂 的 分 割 处 理 参见 第 10 音 。 
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表 7-2 图 7-8 中 图 像 主要 区 域 的 Laws 纹 理 能 量 测 度 


区 域 E5E5 S5S5 R5R5 E5L5 S5L5 R5L5 S5E5 R5E5 R585 
老虎 168.1 84.0 807.7 553.7 354.4 910.6 116.3 339.2 257.4 
水 68.5 36.9 366.8 218.7 149.3 459.4 49.6 159.1 117.3 
旗帜 258.1 113.0 787.7 1057.6 702.2 2056.3 182.4 611.5 350.8 
EAS 189.5 80.7 624.3 701.7 377.5 803.1 120.6 297.5 215.0 
草 206.5 103.6 1031.7 625.2 428.3 1153.6 146.0 427.5 323.6 
INTE AE 114.9 48.6 289.1 402.6 241.3 484.3 73.6 158.2 109.3 
KIER 76.7 28.8 177.1 301.5 158.4 270.0 45.6 89.7 62.9 
边界 15.3 6.4 64.4 92.3 36.3 74.5 9.3 26.1 19.5 


Kae 
表 7-3 几 幅 不 同 图 像 中 老虎 区 域 的 Laws 纹 理 能 量 测度 


图 像 E5E5 S5S5 R5R5 E5L5 S5L5 R5L5 S5E5 R5E5 R5S5 
老虎 1 171.2 96.8 1156.8 599.4 378.9 1162.6 124.5 423.8 332:3 
老虎 2a 146.3 79.4 801.1 441.8 302.8 996.9 106.5 345.6 256.7 
老虎 2b 177.8 96.8 1177.8 531.6 358.1 1080.3 128.2 421.3 334.2 
老虎 3 168.8 92.2 966.3 527.2 354.1 1072.3 124.0 389.0 289.8 
老虎 4 168.1 84.0 807.7 553.7 354.4 910.6 116.3 339.2 257.4 
老虎 5 146.9 80.7 868.7 474.8 326.2 1011.3 108.2 355.5 266.7 
老虎 6 170.1 86.8 913.4 551.1 351.3 1180.0 119.5 412.5 295.2 
老虎 7 156.3 84.8 954.0 461.8 323.8 1017.7 114.0 372.3 278.6 


ee 


习题 7.7 纹理 分 割 


编程 计算 一 幅 图 像 的 Laws 纹 理 能 量 测度 ， 研 究 它们 在 纹理 分 割 中 的 效果 。 另 编写 交互 式 
前 端 程序 ， 允 许 用 户 在 图 像 中 画 出 块 状 区 域 ， 每 个 区 域 包含 一 种 类 别 的 纹理 ， 如 草地 或 天 空 。 
对 每 块 区 域 ， 计 算 九 个 纹理 特征 的 平均 值 。 用 表格 列 出 每 种 纹理 类 别 的 名 字 和 该 类 别 对 应 的 
九 个 平均 值 。 比 较 不 同类 别 的 分 类 结果 。 
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第 8 章 基于 内 容 的 图 像 检 索 


大 容量 的 内 存 外 存 设备 越 来 越 便宜 ， 处 理 器 的 运算 能 力 越 来 越 强 ， 这 使 得 建立 和 使 用 图 
像 数据 库 从 期 望 变 成 了 现实 。 图 像 数 据 库 可 用 来 存储 艺术 收藏 品 图 像 、 卫 星 图 像 、 医 学 图 像 
以 及 普通 图 片 。 使 用 图 像 库 的 目的 各 种 各 样 。 例 如 艺术 收藏 家 可 能 想 找到 某 位 艺术 家 的 作品 ， 
或 者 找 出 曾经 见 过 的 某 幅 图 像 的 作者 ; 医学 图 像 库 使 用 者 可 能 是 学 习 解 剖 学 的 学 生 ， 或 者 是 
正在 寻找 某 种 疾病 的 样 例 图 片 的 医生 ; 普通 图 片 则 可 为 一 篇 文章 或 一 本 图 书 提供 合适 的 插图 
总 之 ,图像 检索 的 应 用 范围 很 广泛 ， 用 户 可 能 在 寻找 马 的 图 像 ， 或 者 日 落 的 图 像 ， 甚 至 是 在 
查找 抽象 的 概念 ， 比 如 “ 爱 ”。 

图 像 库 包含 上 万 幅 甚 至 上 百 万 幅 图 像 ， 数 量 非常 巨大 。 在 多 数 情况 下 ， 仅 提供 关键 词 进 
行 检索 。 这 些 关键 词 由 人 来 进行 标注 、 分 类 并 输入 数据 库 系统 。 而 图 像 可 以 根据 内 容 进 行 检 
索 。 所 谓 内 容 是 指 图 像 的 颜色 分 布 、 纹 理 、 区 域 形状 或 者 目标 类 别 等 。 尽 管 图 像 分 割 和 识别 
算法 仍然 处 于 初级 状态 ， 目 前 已 经 建立 起 图 像 检索 商用 系统 和 研究 系统 ， 并 且 这 些 系 统 有 的 
已 经 投入 使 用 。 这 些 系统 经 常 在 万 维 网 上 可 以 演示 。 这 一 章 讨论 基于 内 容 的 图 像 检 索 方法 ， 
而 不 是 关键 词 检索 方法 。 


8.1 图 像 数 据 库 实例 

有 的 图 像 数据 库 的 建立 ， 只 是 为 了 说 明 图 像 检 索 系 统 
是 如 何 工作 的 。IBM 的 图 像 内 容 查 询 (QBIC) 数据 库 就 
是 这 样 的 系统 。QBIC 是 一 个 研究 性 系统 ， 后 来 IBM 把 它 
开发 成 一 个 商业 系统 ， 并 向 市 场 销售 。QBIC 基 于 图 像 的 
视觉 内 容 进 行 检索 ， 利 用 了 诸如 颜色 百分比 、 颜 色 分 布 和 
纹理 等 特征 。Virage 公 司 开发 出 一 个 具有 竞争 力 的 产品 ， 
即 Virage 搜 索引 擎 。 它 可 以 基于 颜色 、 组 成 、 纹 理 和 结构 
来 检索 图 像 。 这 些 及 其 他 图 像 搜索 引擎 都 可 用 于 检索 其 他 
机 构 提供 的 数据 库 。 例 如 ， 旧 金山 的 精品 艺术 博物 馆 
(Fine Arts Museums) 允许 用 QBIC 检 索 他 们 的 图 像 库 ， 其 
中 包括 很 多 数字 化 绘画 。 图 8-1a 就 是 该 图 像 库 中 雷诺 阿 的 
一 幅 绘画 。 类 似 的 数字 艺术 图 像 库 在 世界 的 各 大 城市 都 已 : > 
经 建立 起 来 。 b) 紫 水 晶 图 像 








除了 艺术 品 收藏 库 ， 还 有 普通 的 图 片 收藏 库 。 私 人 用 ws acres Fan 
户 也 许 想 把 这 些 图 片 作为 产品 或 者 作为 文章 中 的 插图 ， 这。 yw aye nee 
些 图 片 经 过 私人 人 允许 就 可 以 使 用 。 这 种 图 像 库 中 最 大 的 是 的 风景 ，1893 ， 经 旧金山 精品 
Corbis Archive 图 像 库 ， 它 包含 一 千 七 百 多 万 的 图 像 ， 其 艺术 博物 馆 许可 ，Mildred Anna 
中 近 一 百 万 是 数字 图 像 ， 并 且 这 个 数字 还 在 增长 。 该 图 库 Williams 收藏 ，1944.9。 紫 水 晶 
试图 捕 提 人 类 的 所 有 表情 和 感觉 ， 它 包含 诸如 历史 、 艺 术 、 图 像 经 Smithsonian 学 院 许可 ， 


娱乐 、 科 学 、 工 业 和 动物 等 类 别 。Corbis 提 供 基 于 关键 词 1992) 参见 彩 图 8-1 
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和 基于 浏览 的 图 像 检 索 方 式 。 另 一 个 公司 Getty Images， 提 供 几 个 在 线 的 分 类 图 像 数据 库 ， 可 
根据 关键 词 进行 检索 。 

除了 艺术 作品 和 摄影 图 片 外 ， 图 像 库 中 还 包括 科学 和 医学 图 像 。 美 国 国家 医药 图 书馆 提 
供 的 图 片 包含 : X 射 线 ，CT 扫 描 图 ，MRI 核 磁 共 振 图 像 ， 以 及 从 男性 和 女性 户 体 上 定时 抽取 
的 彩色 切片 ， 可 给 人 们 提供 大 约 1 万 4 千 幅 图 像 进行 医学 研究 。 美 国 国家 航空 航天 局 (NASA) 
建立 了 一 个 巨大 的 卫星 图 像 库 ， 并 有 偿 提 供给 公众 使 用 。 美 国 地 质 勘 探 局 (USGS ) 提供 Web 
搜索 功能 ， 为 寻找 和 定购 数据 库 包 括 数字 卫星 图 像 和 航 测 图 像 的 用 户 服 务 。 另 外 ， 万 维 网 本 
身 也 是 一 个 包含 文本 和 大 量 图 像 的 数据 库 。Web 图 像 搜索 引擎 正在 开发 ， 将 根据 关键 词 以 及 
一 定 程度 的 图 像 内 容 进 行 检 索 。 

8.2 图 像 数 据 库 查询 

要 检索 一 个 图 像 数 据 库 ， 必 须根 据 某 种 方式 进行 检索 ， 而 不 是 对 整个 图 像 库 从 头 到 尾 搜 
索 一 遍 。 一 般 来 说 ， 公 司 在 建立 图 像 库 时 ， 都 有 一 个 选择 过 程 和 分 类 过 程 ， 选 择 过 程 决定 哪 
些 图 像 应 该 加 入 数据 库 ， 分 类 过 程 为 选 定 的 图 像 分 配 类 别 和 关键 词 。 万 维 网 上 的 图 像 通常 都 
有 一 个 标题 ， 根 据 这 些 标题 可 以 自动 抽取 出 关键 词 。 

对 于 关系 数据 库 系统 ， 实 体 可 通过 其 文本 属性 来 检索 。 用 来 检索 图 像 的 属性 包括 一 般 类 
别 、 目 标 名 称 、 人 人 名、 创建 的 日 期 和 来 源 等 。 可 根据 这 些 属性 建立 图 像 索 引 ， 查 询 时 就 可 以 
快速 查 出 结果 。 这 种 文本 查询 方式 可 用 SQL 关 系数 据 库 语 言 来 描述 ，SQL 可 用 于 所 有 的 标准 
关系 数据 库 。 例 如 ， 查 询 任 务 : 

SELECT * FROM IMAGEDB 
WHERE CATEGORY = 'GEMS' AND SOURCE = 'SMITHSONIAN' 
将 从 称 为 IMAGEDB 的 集合 中 寻找 并 返回 满足 下 面条 件 的 图 像 : 这 些 图 像 的 CATEGORY 属 性 
是 “GEMS”， 且 SOURCE 属 性 是 “SMITHSONIAN”。 目 的 是 检索 Smithsonian 学 院 的 宝石 图 
像 。 图 8-1 中 的 b 图 就 是 从 集合 中 找到 的 一 幅 紫 水 晶 图 像 。 检 索 结 果 中 还 有 很 多 其 他 的 宝石 图 
像 。 为 了 允许 更 多 的 选择 性 检索 ， 需 要 为 每 幅 图 像 存 储 一 个 关键 词 集合 。 在 关系 数据 库 中 ， 
每 幅 图 像 的 KEYWORD 是 一 个 多 值 属 性 。 例 如 这 幅 紫 水 晶 图 像 可 能 有 这 些 关键 词 : 
“AMETHYST”、“CRYSTAL” 和 “PURPLE”， 针 对 用 户 的 需求 ， 可 以 根据 这 三 者 或 它们 的 
任意 组 合 进行 查询 。 例 如 ，SQL 查 询 
SELECT * FROM IMAGEDB 
WHERE CATEGORY = 'GEMS' AND SOURCE = 'SMITHSONIAN' 
AND (KEYWORD = 'AMETHYST' OR KEYWORD = 'CRYSTAL' 
OR KEYWORD = 'PURPLE') 
将 从 集合 IMAGEDB 中 检索 满足 下 面条 件 的 图 像 : 这 些 图 像 的 CATEGORY 属 性 是 “GEMS” 
且 SOURCE 属 性 是 “SMITHSONIAN”,， 并且 KEYWORD 的 值 为 “AMETHYST” 或 
“CRYSTAL” 或 “PURPLE”。 这 样 的 检索 结果 将 不 仅仅 是 紫 水 晶 图 像 ; 用 户 可 以 浏览 返回 的 
图 像 集合 并 选择 图 像 。 

关键 词 检 索 的 能 力 是 有 限 的 。 人 工 标注 关键 词 耗 费 财力 ， 而 且 有 可 能 遗漏 一 些 有 助 于 检 
索 的 关键 词 。 对 于 网 上 数据 库 ， 利 用 HTML 标 题 可 以 自动 标注 关键 词 ， 但 索引 能 力 同 样 是 有 
限 的 。 此 外 ， 自 动 获取 关键 词 的 检索 方法 ， 返 回 的 检索 结果 可 能 与 用 户 期 望 的 结果 大 相 径 庭 。 
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图 8-2 表 示 在 网 上 检索 “pigs” 关 键 词 得 到 的 两 幅 图 像 。 
仅 依靠 关键 词 检索 是 不 够 的 ， 下 面 研 究 其 他 图 像 检 索 方法 ， 这 些 方法 可 以 代替 关键 词 检 
索 或 者 与 关键 词 检 索 相 结合 。 





a) 包含 猪 的 图 像 b) 不 包含 猪 的 图 像 


图 8-2 关键 词 检索 返回 猪 的 图 像 〈 图 像 a 的 版 权 来 自 Corbis。 
Credit line:\051 Clive Druett; Papilio/CORBIS ) 






设计 SQL 查询 ， 要 检索 出 图 8-2a 但 不 会 检索 出 图 8-2b。 采 用 任何 你 认为 合适 的 类 别 和 关 
键 词 。 


8.3 示例 查询 

示例 查询 (QBE) 是 数据 库 查 询 术语 ， 形 式 上 通过 填充 表格 中 的 数值 和 限制 条 件 来 实现 
查询 ， 系 统 可 将 其 转化 为 SQL 语句 。 第 一 个 QBE 系 统 是 IBM 开 发 的 。 微 软 公司 的 Access 也 属 
于 这 类 系统 。 在 标准 关系 数据 库 中 ， 属 性 值 主要 是 文本 或 数据 ， 示 例 查 询 仅仅 是 为 用 户 提供 
了 一 个 方便 的 接口 ， 没 有 任何 特殊 的 功能 。 

对 于 图 像 数据 库 ， 示 例 查询 的 思想 很 有 意义 。 与 输入 一 个 查询 不 同 ， 图 像 数 据 库 用户 能 
够 提供 给 系统 一 个 样 例 图 像 ， 或 者 在 屏幕 上 交互 地 画 出 一 幅 ， 或 者 仅仅 是 勾勒 出 目标 的 轮廓。 
检索 系统 应 能 返回 与 此 相似 的 图 像 或 者 包含 相似 目标 的 图 像 。 这 是 所 有 基于 内 容 的 图 像 检 索 
的 目标 。 每 个 检索 系统 都 有 各 自 的 方式 来 定义 查询 任务 、 判 断 查 询 图 像 和 数据 库 图 像 的 相似 
性 以 及 选择 要 返回 的 图 像 。 

为 了 使 讨论 具有 一 般 性 ， 我 们 考虑 用 一 幅 例 图 和 一 些 约束 条 件 来 进行 查询 。 例 图 可 以 是 
一 幅 数字 图 像 、 一 幅 用 户 画 的 草图 、 一 幅 线条 图 或 者 是 一 个 空 集 (在 这 种 情况 下 ， 检 索 结 果 
仅 需 要 满足 约束 条 件 )。 约 束 条 件 可 以 是 出 现在 检索 系统 中 的 关键 词 ， 或 者 指明 应 该 出 现在 图 
像 中 的 目标 ， 甚 至 是 目标 间 的 空间 关系 。 最 常见 的 情况 ， 查 询 图 像 是 一 幅 数 字 图 像 ， 检 索 系 
统 按照 一 定 的 图 像 距 离 测度 比较 库 中 图 像 与 查询 图 像 的 相似 性 。 当 返回 的 距离 是 0 时 ， 库 中 图 
像 与 查询 图 像 完 全 匹配 。 距 离 值 大 于 0 表示 与 查询 图 像 有 不 同 程度 的 相似 性 。 图 像 搜索 引擎 通 
常 返回 一 个 图 像 集合 ， 按 照 距离 大 小 进行 排序 。 图 8-3 表 示 基 于 颜色 分 布 距离 测度 的 QBIC 检 
索 结果 。 图 中 显示 的 是 与 查询 图 像 最 相似 的 8 幅 图 像 ， 其 中 左上 角 为 查询 图 像 ， 因 为 与 查询 图 
像 最 相似 的 总 是 其 自身 。 


8.4 图 像 距 离 度量 


判断 库 中 图 像 与 查询 图 像 在 多 大 程度 上 相似 ， 这 取决 于 采用 什么 样 的 距离 测度 。 主 要 有 
四 类 相似 性 度量 方法 : 
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1) 颜色 相似 性 
2) 纹理 相似 性 
3) 形状 相似 性 
4) 目标 和 目标 关系 相似 性 
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图 8-3 基于 颜色 分 布 相似 性 的 QBIC 检 索 结 果 。 查 询 图 像 是 位 于 左上 和 角 的 图 像 。 
(Egames 提 供 ) 参见 彩 图 8-3 

8.4.1 颜色 相似 性 度量 

颜色 相似 性 度量 一 般 比 较 简 单 。 它 比较 一 幅 图 像 的 颜色 与 另 一 幅 图 像 的 颜色 或 与 一 个 定 
义 的 查询 概念 比较 。 例 如 ，QBIC 人 允许 用 户 通过 颜色 百分比 进行 查询 。 用 户 从 颜色 表 中 选择 最 
多 5 种 颜色 ， 并 指明 希望 每 种 颜色 所 占 的 百分比 。QBIC 寻 找 与 这 些 颜色 百分比 最 接近 的 图 像 。 
图 像 中 颜色 的 位 置 不 是 检索 时 考虑 的 因素 。 图 8-4 表 示 对 40% 红 色 30% 黄 色 和 10% 黑 色 的 查询 
任务 返回 的 图 像 集合 。 这 些 图 像 在 颜色 上 很 相似 ,但 却 有 不 同 的 构成 。 
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图 8-4 基于 颜色 百分比 的 QBIC 检 索 结 果 。 查 询 定义 为 40% 的 红色 、30% 的 黄色 
和 10% 的 黑色 。( Egames 提 供 ) 参见 彩 图 8-4 
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一 种 相关 技术 是 颜色 直方 图 匹配 ， 这 在 第 6 章 中 曾经 讨论 过 ， 在 第 16 章 的 Veggie Vision 系 
统 中 将 会 用 到 。 用 户 提 供 一 幅 样 例 图 像 ， 并 要 求 系统 返回 与 该 图 像 颜 色 直方 图 距离 最 小 的 图 
像 。 颜 色 直 方 图 距离 应 包含 某 种 度量 方式 ， 以 衡量 两 种 不 同 颜色 的 相似 程度 。 例 如 ，QBIC 将 
颜色 直方 图 距离 定义 为 : 

der Q) = (MD — h(Q)) ACC) — h(Q)) (8-1) 

HPA 和 h(Q) 分 别 是 图 像 和 Q 的 K 维 直方 图 ，A4 是 一 个 Kx 天 的 相似 度 和 矩阵 。 在 这 个 矩阵 中 ， 
颜色 越 相似 ， 相 似 度 的 值 越 接近 于 1， 反 之 ， 颜 色差 别 越 大 ， 相 似 度 的 值 越 接 近 于 0。 

颜色 分 布 是 另 一 种 距离 度量 方法 。 一 般 开 始 时 用 一 幅 空 栅 格 图 表示 查询 图 像 ， 然 后 从 颜 
色 表 中 为 每 个 方 格 选择 颜色 。 图 8-5 中 ， 用 户 从 左上 角 所 示 的 颜色 矩阵 中 选择 了 两 种 颜色 ， 并 
对 右上 角 的 6 x 6 栅 格 涂 色 。 图 中 所 示 的 图 像 ， 是 利用 简单 的 颜色 分 布 距离 测度 得 到 与 查询 图 
像 最 相似 的 图 像 。 如 图 8-3 所 示 ， 也 可 以 选用 一 幅 例 图 ， 使 系统 返回 与 例 图 具有 相似 颜色 空间 
分 布 的 图 像 。 








图 8-5 图 像 库 检索 结果 ， 其 中 查询 图 像 是 涂 色 的 栅 格 。( 图 像 来 自 MIT 媒 体 实验 室 的 VisTex 数 据 库 : 
http://vismod.www.media.mit .edu/vismod/imagery/VisionTexture/vistex.html ) 参见 彩 图 8-5 
栅 格 颜色 分 布 度 量 要 用 到 栅 格 颜色 距离 测度 0.。,， 来 比较 查询 图 像 的 每 个 方 格 与 可 能 匹配 
的 图 像 对 应 方 格 之 间 的 相似 性 ， 并 将 结果 组 合 为 统一 的 图 像 距离 : 


 gridded_color(I, Q)= >B CC: (8)， C2(g)) ( 8-2) 
8 


其 中 C (8) 表 示 库 中 图 像 7 的 第 8 个 方 格 的 颜色 ，C'(O) 表 示 在 查询 图 像 2 中 对 应 的 方 格 8 的 颜色 。 
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至 于 方 格 本 身 的 颜色 表示 可 简 可 繁 ， 以 下 是 几 种 合适 的 表示 方法 : 

(1) 方 格 的 平均 颜色 什 

(2) 颜色 的 均值 和 标准 差 

(3) 颜色 的 多 箱 格 直方 图 

方 格 距离 测度 4 必须 是 关于 颜色 表示 的 有 意义 的 距离 。 例 如 ， 如 果 颜色 均值 用 一 个 三 元 组 
(RGB) 来 表示 ， 那 么 就 可 以 选择 测度 å =R, G2, B2)-(R', G! Bf. 当然 这 个 选择 未 必 是 
最 好 的 。 一 些 系统 不 是 比较 (R, G, B) 的 值 ， 而 是 将 颜色 空间 划分 成 3D 箱 格 的 集合 ， 并 用 一 
张 表 来 表示 箱 格 数 之 间 相 似 性 。 这 与 前 面 的 QBIC 直 方 图 距离 采用 的 是 相同 的 技术 。 


Mee 颜色 直方 图 距离 

设计 4 x 4 x 4 的 颜色 直方 图 距离 测度 ， 用 来 比较 两 幅 图 像 ， 可 以 比较 整 幅 图 像 ， 也 可 以 比 
较 子 图 。 用 该 基本 测度 实现 基于 顶 格 的 距离 测度 ， 这 个 栅 格 测度 允许 用 户 定义 栅 格 的 维 数 ， 
并 可 将 每 对 方 格 的 距离 组 合 为 一 个 统一 的 距离 ， 如 公式 (8-2) 所 示 。 用 多 对 颜色 图 像 ， 计 算 
你 定义 的 栅 格 颜色 直方 图 测度 ， 栅 格 维 数 分 别 定义 为 x 1、4 x 4 和 8 x 8。 
8.4.2 纹理 相似 性 度量 

纹理 相似 性 要 比 颜 色相 似 性 复杂 得 多 。 与 查询 图 像 具有 相似 纹理 的 图 像 应 该 具有 相同 的 
BE (或 灰色 ) 空间 分 布 ， 但 不 一 定 是 同一 种 颜色 (或 灰色 )。 第 7 章 所 描述 的 纹理 测度 可 用 
来 判断 两 种 纹理 之 间 的 相似 性 。 图 8-6 所 示 是 基于 纹理 的 图 像 检索 ， 采 用 的 是 基于 Laws 纹 理 能 
量 的 距离 测度 。 从 查询 结果 可 见 ， 这 个 距离 是 与 图 像 颜色 无 关 的 。 当 然 也 可 以 设计 同时 包括 
颜色 和 纹理 相似 性 的 距离 测度 














图 8-6 ry (来 自 MIT 媒 体 实验 室 的 VisTex 数 据 库 : 


http://vismod.www.media.mit. edu/vismod/imagery/VisionTexture/vistex. html) 参见 彩 图 8-6 
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纹理 距离 度量 包括 以 下 两 方面 : 

(1) 纹理 的 表示 。 

(2) 基于 这 种 表示 的 相似 性 的 定义 。 

最 常用 的 纹理 表示 是 纹理 描述 向 量 ， 该 向 量 表示 一 幅 图 像 或 图 像 某 个 区 域 的 纹理 数 。 纹 
理 描述 向 量 的 实例 ， 如 Haralick 的 五 个 共生 纹理 特征 组 成 的 向 量 ， 以 及 Laws 的 九 个 纹理 能 量 
特征 组 成 的 向 量 。 虽 然 纹理 描述 向 量 可 用 来 表征 整 幅 图 像 的 纹理 ， 但 只 适合 描述 单一 纹理 的 
图 像 。 对 于 一 般 图 像 ， 在 像素 点 周围 的 邻 域 (15 x 15) 内 计算 纹理 描述 向 量 ， 然 后 用 聚 类 算 
法 对 像素 点 聚 类 ， 该 算法 对 每 个 不 同 的 纹理 类 别 赋 予 一 个 唯一 的 标号 。 

如 果 得 到 了 像素 点 的 纹理 描述 向 量 ， 并 将 像素 点 标记 为 隶属 某 个 纹理 类 别 ， 就 可 以 定义 
不 同 的 纹理 距离 。 最 简单 的 纹理 距离 是 挑选 -点 击 (pick-and-click) 距离 。 用 户 点 击 查询 图 像 
纹理 区 域 的 某 个 像素 点 来 选择 纹理 ， 或 者 从 预先 设 定 的 集合 中 选择 纹理 。 选 择 的 纹理 通过 纹 
理 描述 向 量 来 表示 ， 将 它 与 图 像 库 中 的 纹理 描述 向 量 进 行 比较 。 距 离 测度 定义 如 下 : 

Apickand-click(1, Q) =min jer||T (i) — T(Q)|I? (8-3) 


KETO 是 图 像 的 第 ;个 像素 点 的 纹理 描述 向 量 ，7(O) 是 选 定 像素 点 的 纹理 描述 向 量 或 是 要 查 
询 类 别 的 纹理 描述 向 量 。 虽 然 计 算 看 似 复杂 ， 但 如 果 用 聚 类 过 程 得 到 的 纹理 类 别 列表 来 表示 
库 中 的 图 像 ， 则 可 以 避免 大 多 数 计算 。 对 每 幅 库 中 的 图 像 ， 查 询 图 像 的 纹理 描述 向 量 仅仅 需 
要 与 列表 中 的 纹理 描述 向 量 做 比较 。 加 上 索引 使 检索 更 快 。 

挑选 -点 击 距离 要 求 用 户 选 定 纹理 ， 对 查询 图 像 无 法 进行 自动 运算 。 更 一 般 的 纹理 测量 根 
据 前 面 讨论 的 颜色 栅 格 测量 推广 而 来 。 查 询 图 像 被 划分 成 栅 格 ， 对 每 一 个 栅 格 计算 纹理 描述 
向 量 。 对 于 库 中 图 像 进行 同样 的 计算 过 程 。 基 于 栅 格 的 纹理 距离 定义 如 下 : 


gridded -sexture(I, Q) = 》 drexture(T! (8), T2(g)) (8-4) 
& 
其 中 dw 可 以 是 欧 氏 距离 或 其 他 距离 测度 。 纹 理 直 方 图 距离 可 以 参照 颜色 直方 图 距离 进行 定 
义 。 对 于 每 个 纹理 类 别 ， 直 方 图 确定 了 特征 描述 向 量 落 在 该 纹理 类 别 的 像素 点 数目 。 计 算 纹 
理 直 方 图 简单 有 趣 的 方法 是 利用 相交 的 直线 段 对 。 直 线 检测 器 ( 见 第 10 章 ) 用 于 检测 图 像 中 
的 直线 段 。 找 出 那些 相交 或 几乎 相交 的 直线 段 对 ， 并 计算 每 对 直线 段 的 夹 角 。 通 过 这 些 角度 
变量 产生 描述 图 像 的 纹理 直方 图 。 


习题 8.3 纹理 距离 测度 


从 第 7 章 选 择 几 种 不 同 的 纹理 测度 ， 并 实现 为 图 像 距离 测度 ， 可 用 该 测度 对 查询 图 像 的 子 
图 纹理 与 库 中 图 像 的 子 图 纹理 进行 比较 。 然 后 编程 实现 栅 格 纹理 距离 测度 ， 要 能 够 调用 任何 
一 个 图 像 距 离 测度 对 每 个 方 格 进行 比较 。 对 于 一 组 图 像 ， 利 用 每 种 图 像 距离 测度 ， 针 对 大 小 
不 同 的 栅 格 进行 比较 。 测 试 的 图 像 库 中， 每 幅 图 像 都 包含 几 片 不 同 纹理 区 域 。 
8.4.3 形状 相似 性 度量 

颜色 和 纹理 都 反映 了 图 像 的 全 局 属性 。 其 中 所 用 的 距离 度量 方式 ， 试 图 确定 某 幅 图 像 中 
是 否 含有 某 种 颜色 和 纹理 ， 以 及 这 些 颜 色 和 纹理 的 位 置 是 否 和 查询 图 像 中 的 位 置 对 应 。 形 状 
不 是 一 种 图 像 属 性 ， 问 一 幅 图 像 的 形状 是 什么 样 没 有 任何 意义 。 但 形状 对 于 图 像 中 的 一 个 特 
定 区 域 是 有 意义 的 。 形 状 比 颜 色 和 纹理 都 进 了 一 步 ， 因 为 在 形状 相似 性 度量 中 需要 进行 区 域 
识别 。 在 许多 情况 下 ， 需 要 手工 完成 这 个 过 程 ， 但 有 的 领域 也 可 以 用 自动 分 割 的 方法 。 基 于 
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形状 的 检索 要 得 到 广泛 应 用 ， 首 先 应 该 解决 分 割 问题 。 分 割 问 题 将 在 第 10 章 讨论 ， 下 面 讨论 
形状 匹配 。 

一 维 形状 识别 是 图 像 分 析 的 一 个 重要 方面 。 第 3 章 定 义 了 图 像 区 域 的 一 些 特征 。 由 于 这 些 
特征 是 对 整个 形状 而 言 的 ， 所 以 又 称 为 全 局 形状 特征 。 根 据 全 局 特征 可 以 用 第 4 章 讲 的 统计 模 
式 识别 方法 比较 两 个 形状 。 形 状 匹配 也 可 采用 结构 方法 ， 这 时 形状 由 其 基 元 及 其 空间 关系 进 
行 描述 。 由 于 这 种 表示 是 一 个 关系 图 ， 图 匹配 的 方法 也 可 用 于 形状 匹配 。 图 匹配 是 种 有 效 的 
方法 ， 因 为 它 以 空间 关系 为 基础 ， 这 种 空间 关系 对 于 大 多 数 二 维 变换 具有 不 变性 。 但 图 匹配 
是 个 非常 缓慢 的 过 程 ， 计 算 时 间 与 基 元 个 数 成 指数 关系 。 基 于 内 容 的 图 像 检 索 ， 需 要 快速 确 
定 图 像 中 的 形状 在 多 大 程度 上 与 查询 的 形状 相似 。 一 般 要 求 形状 匹配 方法 具有 平移 不 变性 和 
尺寸 不 变性 。 有 时 也 希望 其 具有 旋转 不 变性 ， 这 样 图 像 中 的 目标 无 论 是 正常 方向 还 是 发 生 旋 
转 都 可 以 识别 出 来 。 不 过 在 图 像 检索 中 不 是 总 要 求 旋转 不 变性 。 因 为 很 多 场景 中 的 目标 一 般 
都 处 于 正常 的 方向 ， 例 如 室外 场景 中 的 建筑 物 、 树 木 和 卡车 等 。 

形状 度量 方法 大 量 存在 于 计算 机 视觉 的 相关 文献 中 ， 既 有 粗糙 的 全 局 度量 方法 ， 它 们 对 
目标 识别 有 所 帮助 但 无 法 最 终 完成 识别 ; 也 有 非常 细致 的 度量 方法 ， 可 以 寻找 具有 特定 形状 
的 目标 。 形 状 直 方 图 是 简单 的 度量 方法 ， 它 能 排除 不 可 能 匹配 的 形状 , 但 也 会 返回 不 正确 的 
检索 结果 ， 就 像 颜色 直方 图 一 样 。 基 于 边界 的 方法 要 具体 些 ， 它 通过 某 种 方法 表示 形状 的 边 
界 并 寻找 具有 类 似 边界 的 形状 。 简 图 匹配 方法 更 加 具体 ， 不 仅 寻找 与 查询 匹配 的 单个 目标 的 
边界 ， 而 且 寻 找 与 查询 匹配 的 单 目标 或 多 目标 图 像 区 域 ， 其 中 查询 简 图 由 用 户 绘 出 或 由 用 户 
提供 。 现 在 我 们 分 别 讨论 这 几 类 方法 。 

1. 形 状 直方 图 

由 于 直方 图 距离 计算 简便 快速 ， 并 且 已 用 于 颜色 和 纹理 匹配 ， 自 然 就 会 想到 将 其 应 用 于 
形状 匹配 。 主 要 问题 是 用 什么 变量 定义 直方 图 。 把 形状 看 作 是 一 个 二 值 图 像 中 值 为 1 的 像素 点 
组 成 的 区 域 ， 其 他 部 分 的 像素 点 为 0， 这 种 直方 图 匹配 方法 是 利用 形状 的 水 平和 垂直 投影 作 投 
影 匹 配 。 假 设 形状 有 n 行 m 列 。 每 一 行 和 每 一 列 都 是 直方 图 的 一 个 箱 格 。 储 存在 箱 格 中 的 数值 
就 是 该 行 或 该 列 上 值 为 1 的 像素 点 的 个 数 。 这 样 就 构成 了 n + m 个 箱 格 的 直方 图 ， 它 仅 适用 于 
具有 同样 尺寸 的 形状 。 为 了 使 投影 匹配 具有 尺寸 不 变性 ， 行 箱 格 数 和 列 箱 格 数 可 以 保持 不 变 。 
通过 确定 形状 从 左上 角 到 右 下 角 的 箱 格 数 ， 就 可 以 保证 平移 不 变性 。 投 影 匹配 不 具有 旋转 不 
变性 ， 但 也 适用 于 旋转 角度 小 或 几何 畸变 小 的 情况 。 实 现 旋转 不 变性 的 一 种 方法 是 ， 求 出 最 
佳 拟 合 的 椭圆 的 轴 (第 3 章 中 讨论 过 ) ， 然 后 旋转 形状 直到 椭圆 的 主轴 沿 竖 直 方向 为 止 。 因 为 
我 们 不 知道 哪 一 端 是 形状 的 上 部 ， 所 以 必须 尝试 两 种 可 能 的 旋转 方向 。 另 外 ， 如 果 主 轴 和 次 
轴 差 不 多 等 长 ， 就 要 考虑 四 种 可 能 的 旋转 方向 。 投 影 匹配 已 经 成 功 地 用 于 标志 检索 。 

男 一 种 方法 是 构造 形状 边界 上 每 个 像素 的 正切 角 的 直方 图 。 这 种 方法 具有 尺寸 和 平移 不 
变性 ， 但 不 具有 旋转 不 变性 ， 因 为 正切 角 是 根据 形状 的 固定 方向 计算 出 来 的 。 解 决 这 个 问题 
有 几 种 不 同 的 方法 。 一 种 方法 是 与 上 面 描述 的 类 似 ， 将 形状 根据 主轴 进行 旋转 ， 另 一 种 简单 
方法 是 将 直方 图 进行 旋转 。 如 果 直 方 图 具有 K 个 箱 格 ， 则 有 K 种 可 能 的 旋转 。 一 旦 算出 直方 图 
距离 过 大 ， 则 可 快速 排除 不 正确 的 旋转 。 或 者 把 具有 最 大 值 的 箱 格 作为 第 一 个 箱 格 ， 并 用 该 


值 对 直方 图 进行 规范 化 。 考 虑 到 可 能 出 现 的 噪声 和 畸变 ， 需 要 多 试 几 个 最 大 箱 格 。 
ET 一 


编程 实现 形状 直方 图 距离 测度 ， 要 求 利 用 形状 每 个 边界 像素 的 正切 角 计算 直方 图 。 通 过 
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旋转 查询 图 像 的 直方 图 ， 使 距离 测度 具有 旋转 不 变性 。 使 每 个 箱 格 都 有 一 次 机 会 作为 第 一 个 
箱 格 ， 结 果 取 这 些 旋转 后 直方 图 的 最 小 距离 。 利 用 这 个 距离 测度 ， 比 较 你 从 实际 图 像 中 抽取 
的 形状 ， 抽 取 形 状 的 方法 可 以 是 国 值 化 或 者 采用 交互 的 方式 得 到 。 

2. 边 界 匹配 

边界 匹配 算法 要 求 对 查询 形状 和 图 像 形状 的 边界 进行 抽取 和 表示 。 边 界 可 以 表示 为 一 系 
列 的 像素 点 或 者 由 多 边 形 来 近似 。 对 于 一 系列 像素 点 ， 经 典 的 匹配 方法 是 利用 健 里 叶 描 述 子 
来 比较 两 个 形状 。 在 连续 数学 中 ， 传 里 叶 描述 子 是 形状 边界 函数 的 傅 里 叶 级 数 展 开 的 系数 。 
在 离散 情况 下 ， 形 状 由 一 系列 点 表示 ， 如 mm 个 点 < Vo, Vise Vin > 。 从 这 个 点 序列 ， 可 以 得 到 
单位 向 量 系列 : 


ee Vk+1 — Vk 
V- Vil sea 
以 及 累积 差 系列 : 
hh=2 IVi -Vil k>0 
i=l $ 
oe 0 (8-6) 
{LI HBB F (yg, …, ao…,aw} 可 由 下 式 计算 : 


可 用 这 些 描述 子 定义 形状 的 距离 测度 。 设 Q 是 查询 形状 ,I 是 要 与 Q 进 行 比较 的 图 像 形状 。 
设 a?) 是 查询 形状 的 伟 里 叶 描述 子 ， {a!} 是 一 般 图 像 的 传 里 叶 描述 子 。 傅 里 叶 距 离 测度 由 下 


式 表 示 : M 
dll, 0)= | $> Jat -og | (8-8) 
=-M 
如 上 所 述 ， 该 距离 仅 具有 平移 不 变性 。 如 果 需 要 其 他 不 变性 ， 该 距离 可 与 其 他 数值 计算 方法 
结合 ， 这 些 数 值 计算 包括 缩放 变换 、 旋 转变 换 和 求 使 dps,(I, Q) 最 小 的 起 始点 等 。 

如 果 用 多 边 形 表示 边界 ， 就 可 以 算出 每 边 的 长 度 和 各 边 之 间 的 夹 角 ， 可 用 这 些 表示 形状 。 
形状 可 由 一 系列 的 连接 点 <X, Y,, o> RR, HEH (X, Y) 表示 一 对 直线 的 交点 坐标 ，w 表 
示 它 们 之 间 的 夹 角 。 用 一 系列 连接 点 Q =Q, Q,,…, Q, 表 示 查 询 目标 Q 的 边界 ， 同 样 用 I = L, 
Loo, I 表示 图 像 I 的 边界 ， 我 们 的 目的 是 寻找 从 Q 到 I 的 映射 ， 该 映射 使 查询 图 像 中 的 线段 与 
图 像 I 中 具有 近似 长 度 的 线段 匹配 ， 并 且 查 询 图 像 中 相 邻 线段 间 的 夹 角 w 与 待 查 图 像 中 相 邻 线 
段 间 的 夹 角 w 匹 配 。 

另 一 种 边界 匹配 技术 是 弹 性 匹配 ， 也 就 是 将 查询 形状 变形 使 其 尽 可 能 地 与 待 查 图 像 形状 接 
近 。 查 询 形状 与 待 查 形状 之 间 的 距离 取决 于 两 个 方面 : (1) 使 查询 形状 变形 直至 与 图 像 形状 
最 佳 匹配 所 需要 的 能 量 ; (2) 变形 后 的 查询 形状 与 图 像 形状 实际 匹配 程度 的 测度 。 如 图 8-7 所 
示 ， 是 利用 弹性 匹配 检索 到 的 马 的 图 像 ， 其 中 查询 图 像 是 用 户 手 工 绘 出 的 大 致 轮廓 ， 用 该 轮 
廊 表 示 要 检索 的 形状 。 





尽管 有 许多 边界 形状 匹配 算法 ， 但 它们 在 基于 内 容 的 图 像 检索 方面 并 未 得 到 普遍 应 用 ， 
你 能 解释 为 什么 吗 ? 
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b) 两 幅 检索 出 来 的 图 像 


c) 另外 两 幅 检索 出 来 的 图 像 ， 包 含 两 匹 马 
图 8-7 弹性 匹配 图 像 检索 结果 (Alberto Del Bimbo 提 供 ) 


3. 简 图 匹配 

简 图 匹配 系统 ， 允 许 用 户 输 入 一 幅 包 含 图 像 中 主要 边缘 的 简 图 ， 然 后 寻找 含有 相 匹 配 边 
缘 的 彩色 图 像 或 灰 度 图 像 。 在 ART MUSEUM 系 统 中 ， 数 据 库 包 含 名 画 的 彩色 图 像 。 彩 色 图 像 
经 过 下 面 的 预 处 理 得 到 中 间 形 式 的 图 像 ， 称 为 抽象 图 像 。 

1. 应 用 仿 射 变换 将 图 像 缩 小 到 预定 的 大 小 ， 如 64 x 64 个 像素 点 ， 并 用 中 值 滤波 来 去 除 噪 


RF ARGH ARE ed 


声 。 得 到 的 结果 是 规范 化 的 图 像 。 

2. 利用 基于 梯度 的 边缘 检测 算法 检测 边缘 。 边 缘 检测 分 成 两 步 进行 : 首先 ， 基 于 梯度 均 
值 和 标准 差 取 全 局 性 域 值得 到 全 局 性 边缘 ; 其 次 ， 根 据 局 部 计算 的 域 值 从 全 局 边缘 中 选 出 局 
部 的 边缘 。 得 到 的 结果 称 为 精细 边缘 图 像 。 

3. 对 精细 边缘 图 像 进行 细 化 和 收缩 ， 最 终 的 结果 称 为 抽象 图 像 。 这 是 原始 图 像 比 较 清晰 
的 边缘 简 图 。 

当 用 户 输入 简 图 进行 查询 时 ， 它 也 要 经 过 大 小 规范 化 、 二 值 化 、 细 化 、 收 缩 的 转换 过 程 。 
这 些 处 理 的 结果 称 为 线性 简 图 。 现 在 要 求 线性 简 图 必须 与 抽象 图 像 匹 配 。 匹 配方 法 是 基于 相 
关 的 算法 。 两 幅 图 像 被 分 成 栅 格 。 对 查询 图 像 的 每 个 棚 格 块 ， 计 算 它 与 库 中 图 像 对 应 的 栅 格 
块 之 间 的 局 部 相关 性 。 为 了 使 算法 更 稳健 ， 对 库 中 图 像 的 栅 格 位 置 进行 几 次 移 位， 分别 计 算 
相关 性 ， 其 中 的 最 大 相关 值 作为 查询 结果 。 最 后 的 相似 性 测度 是 所 有 局 部 相关 性 之 和 。 距 离 
测度 与 相似 测度 成 反比 。 采 用 前 面 的 符号 ， 表 示 如 下 : 

1 

Ba Dg maxnld corretaion (Shift, (A1 (8)), L2 (8))] 
HEHA) 指 库 中 图 像 的 抽象 图 像 栅 格 块 8，sjiz(4(s)) 指 同一 幅 抽 象 图 像 栅 格 块 g 的 移 位 栅 格 ， 
LOCE) Hae WIR ROM ERE AHH Se 


简 图 匹配 


根据 ART MUSEUM 的 规则 ， 设 计 并 实现 一 种 简 图 匹配 的 距离 测度 。 根据 用 户 的 简 图 ， 
检索 一 组 图 像 。 


8.4.4 目标 检测 及 空间 关系 度量 

虽然 第 一 个 图 像 搜索 引擎 提供 了 多 数 距离 测度 ， 涉 及 颜色 、 纹 理 和 形状 等 ， 但 这 些 并 不 
是 多 数 终端 用 户 想 要 的 。 终 端 用 户 倾向 于 查询 包含 某 类 实体 的 图 像 ， 这 可 能 是 某 种 特殊 的 目 
标 ， 比 如 入 物 或 狗 ， 或 者 可 能 是 抽象 的 概念 ， 比 如 快乐 或 贫穷 。 第 一 代目 标识 别 系统 ， 用 到 
了 象 人 脸 、 人 体 和 马 这 样 的 目标 。 为 使 图 像 检索 能 够 使 用 这 方面 的 技术 ， 要 求 对 目标 识别 作 
进一步 的 研究 。 

1. 人 脸 检测 

人 脸 检 测 非常 重要 ， 因 为 它 可 以 帮助 我 们 检索 包含 人 物 的 图 像 。 当 然 人 脸 检 测 也 非常 困 
难 ， 因 为 图 像 中 的 人 脸 可 能 是 任意 大 小 、 任 意 位 置 ， 正 面 或 其 他 角度 ， 并 存在 不 同 的 肤色 。 
卡 内 基 梅 隆 大 学 研发 的 系统 ， 采 用 了 多 分 辩 率 的 方法 来 解决 大 小 问题 。 它 将 彩色 图 像 转化 成 
灰 度 图 像 以 避免 肤色 的 差异 ， 再 对 亮度 规范 化 ， 通 过 直方 图 均衡 化 扩展 灰 度 级 范围 。 然 后 采 
用 神经 网 络 分 类 器 进行 识别 ， 该 分 类 器 事先 采用 16 000 幅 人 脸 和 非 人 脸 图 像 进行 了 训练 。 神 
经 网 络 的 输入 是 20 x 20=400 图 像 像 素 点 的 亮度 值 ， 输 出 是 人 脸 或 非 人 脸 两 大 类 别 。 虽 然 难 以 
从 神经 网 络 中 抽取 一 种 准确 的 算法 ， 敏 感性 分 析 表 明 对 网 络 行为 影响 最 大 的 是 20 x 20 图 像 中 
的 眼睛 ， 其 次 是 鼻子 ， 再 次 是 嘴 。 这 种 方法 效果 不 错 ， 可 检测 出 多 数 的 正面 人 脸 ， 当 然 不 是 
全 部 ， 如 图 8-8 所 示 。 该 方法 无 法 推广 到 其 他 目标 ， 除非 在 它们 的 灰 度 图 像 中 具有 和 眼睛 、 鼻 
子 、 嘴 同样 排列 方式 的 特殊 模式 。 


2. 人 体检 测 
另 一 种 检测 目标 的 方法 是 ， 在 图 像 中 寻找 具有 与 该 目标 相关 的 颜色 和 纹理 区 域 。 该 领域 


(8-9) 
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的 研究 最 初 是 为 了 检测 裸体 图 像 ， 用 于 滤 掉 查询 结果 中 的 色情 图 片 。 由 Fleck、Forsyth 和 
Bregle (1996) 提出 的 方法 包括 两 个 步 又: (1) 找到 可 能 的 大 块 肉体 区 域 ; (2) 对 这 些 区 域 
聚 类 ， 检 测 可 能 的 人 体 。 





图 8-8 基于 神经 元 网 络 检测 人 脸 
人 体 过 滤器 在 像素 级 上 进行 。 通 过 如 下 变换 将 初始 的 RGB 图 像 变换 到 以 10 为 底 的 对 数 空 
间 : 


I = L(G) (8-10) 
R; = L(R) — L(G) (8-11) 
By = LB) — “+ B®) (8-12) 
其 中 L(x) 由 下 式 定义 : 
L(x) = 105logio(x +1 +n) (8-13) 
n 表 示 [0, 1] 内 的 随机 噪声 。7 分 量 用 来 产生 如 下 的 纹理 幅度 图 : 
texture = med>(|I — med;(1)|) (8-14) 


HEH med Filmed, 4} BFE PH SA Tal RPA HEE BS (med, 是 med 的 1.5 倍 )。 纹 理 幅 度 图 用 来 
检测 低 纹理 的 区 域 ， 因 为 图 像 中 的 皮肤 很 可 能 具有 光滑 的 纹理 。 
用 色调 和 饱和 度 选择 那些 颜色 与 皮肤 匹配 的 区 域 。 在 计算 前 R,. 和 有 ,图 像 也 经 过 中 值 滤波 。 
从 以 10 为 底 的 对 数 空间 到 色调 和 饱和 度 的 转换 如 下 : 
hue = atan(R,, By) (8-15) 


saturation = \/ R? + B? (8-16) 


如 果 像 素 落 在 以 下 两 个 区 间 之 一 ， 则 标记 为 皮肤 像素 点 。 

1. texture < 5,110 < hue < 150,20 < saturation < 60 

2. texture < 5,130 < hue < 170,30 < saturation < 130 

注意 有 关 常 量 与 原始 工作 有 关 ， 用 户 可 根据 不 同 的 数据 集 和 实际 情况 进行 修改 。 

皮肤 图 是 一 个 二 值 数组 ， 其 中 值 为 1 的 像素 是 皮肤 像素 ， 值 为 0 的 是 非 皮肤 像素 。 对 该 数 
组 进行 形态 闭 运算 处 理 ， 将 得 到 更 清楚 的 结果 。 一 旦 找到 图 像 中 的 皮肤 区 域 ， 可 再 作 如 下 检 
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E: (1) 肉体 区 域 如 果 足 够 大 ( 占 图 像 的 30% ) ， 可 认为 是 色情 图 片 ; (2) 区 域 之 间 具 有 合 
适 的 空间 关系 ， 可 认为 是 人 体 部 分 。 


See 人 休 和 人 脸 检测 。 
设计 人 体检 测 器 寻找 肉色 区 域 。 选 出 规定 大 小 以 及 更 大 的 区 域 ， 查 找 面部 特征 的 证 据 ， 
特别 要 按 眼睛 、 鼻 子 和 嘴 的 顺序 查找 。 基 于 找到 的 特征 ， 对 每 个 区 域 计 算 属 于 人 脸 的 概率 。 


3. 空间 关系 

一 旦 识别 出 目标 ， 它 们 的 空间 关系 也 可 以 确定 ， 可 用 某 种 形式 化 的 方法 进行 查询 ， 这 需 
要 一 组 具有 预定 空间 关系 的 命名 目标 。 这 是 图 像 检索 过 程 的 最 后 一 步 。 参 考 伯克利 大 学 的 
Forsyth" A (1996) 的 近期 工作 以 及 圣 巴 巴 拉 大 学 的 Ma 和 Manjunath (1997) 所 做 的 类 似 工 
作 ， 研 究 人 员 成 功利 用 颜色 和 纹理 将 图 像 分 割 成 区 域 ， 这 些 区 域 对 应 着 目标 或 场景 中 的 背景。 
对 于 与 众 不 同 的 老虎 和 斑马 ， 它 们 具有 特殊 的 颜色 和 纹理 模式 ， 就 可 以 采用 这 种 方式 找到 目 
标 。 像 丛林 、 天 空 或 海滩 这 样 的 背景 也 可 以 分 割 出 来 。 图 8-9 显 示 这 种 分 割 的 实例 。 原 始 彩色 
图 像 如 左 图 所 示 ， 区 域 分 割 后 的 图 像 如 中 间 图 所 示 。 右 图 是 符号 表示 方式 ， 用 椭圆 表示 感 必 
趣 的 区 域 。 这 种 表示 方法 可 用 来 构造 一 个 关系 图 ， 它 的 节点 是 区 域 类 别 ， 连 接 边 表示 空间 关 
系 。 可 用 相关 匹配 技术 来 建立 图 像 检索 的 关系 距离 测度 。 虽然 在 此 我 们 没有 对 该 系统 进行 更 
深入 的 讨论 ， 但 Del Bimbo 开 发 的 检索 系统 ， 其 输入 就 是 这 种 表示 方式 。 该 系统 允许 用 户 选 中 
具有 一 定 空间 关系 的 图 标 ， 把 图 标 放 在 查询 屏 上 作为 查询 输入 ， 系 统 返回 具有 这 些 关系 的 对 
应 目标 的 图 像 。 图 8-10 是 空间 查询 系统 的 检索 实例 。 





en 





分 制图 符号 表示 


图 8-9 从 图 像 中 抽取 目标 和 空间 关系 并 用 于 检索 。 ( 原 图 像 经 
Corel Stock Photos 许 可 ) 参见 彩 图 8-9 





查询 窗口 检索 到 的 图 像 
图 8-10 空间 关系 查询 的 结果 (图 片 由 Alberto Del Bimbo 提 供 ， 经 IEEE 授 权 。 翻 印 自 
“Symbolic Description and Visual Querying of Image Sequences using Spatio-Tem- 
poral Logic,”by A. Del Bimbo, E. Vicario, D. Zingoni, IEEE Transactions on Knowle- 
dge and Data Engineering, vol.7, no.4, Aug. 1995. © 1995 IEEE) 
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M66 根据 目标 和 目标 关系 进行 检索 

找到 或 编写 程序 ， 基 于 颜色 和 纹理 (如 果 纹理 可 用 ) 把 彩色 图 像 分 割 成 区 域 。 用 一 组 训 
练 图 像 测试 程序 ， 其 中 每 类 目标 ， 如 老虎 、 天 空 、 从 林 在 几 幅 图 像 中 都 存在 。 用 已 知 区 域 的 
颜色 和 纹理 特征 训练 分 类 算法 。 编 写 程序 ， 通 过 分 割 算法 和 分 类 器 对 输入 图 像 生 成 标记 区 域 ， 
并 计算 区 域 对 之 间 上 、 下 、 左 、 右 和 邻接 的 空间 关系 。 然 后 编写 交互 式 前 端 程序 ， 人 允许 用 户 
输入 一 个 图 结构 ， 其 中 节点 是 训练 集 的 目标 ， 连 接 边 是 要 求 的 关系 。 程 序 应 返回 满足 查询 条 
件 的 所 有 数据 库 图 像 。 


8.5 数据库 组 织 

和 其 他 大 型 数据 库 一 样 ， 大 型 图 像 数 据 库 的 数据 量 很 大 ， 查 询 图 像 时 遍历 整个 图 像 库 是 
不 合适 的 。 如 果 希 望 对 于 每 次 查询 ， 都 只 需 搜 索 库 中 的 部 分 图 像 ， 那么 图 像 库 中 的 图 像 必 须 
按 一 定 规律 进行 组 织 和 索引 。 在 多 数 关系 数据 库 系统 中 ， 有 很 多 标准 方法 检索 数字 数据 和 文 
本 数据 。 空 间 数据 也 有 一 套 检索 方法 ， 这 些 方法 也 在 使 用 ， 例 如 地 理 信息 系统 。 当 前 的 研究 
系统 ， 正 在 研究 如 何 为 基于 内 容 的 图 像 检 索 系 统 建立 图 像素 引 。 


8.5.1 标准 索引 

在 大 多 数 关系 数据 库 中 ， 用 户 可 指定 一 个 属性 ， 根 据 这 个 属性 建立 索引 。 通 常 这 个 属性 
是 与 每 个 数据 记录 相关 的 重要 键 值 。 例 如 ， 如 果 某 个 数据 库 包 含 着 某 公司 员工 的 记录 ， 那 么 
社会 安全 号 码 就 是 用 户 的 一 个 属性 ， 可 用 作 数 据 的 索引 。 由 于 每 人 都 只 有 一 个 社会 安全 号 码 ， 
该 属性 就 称 为 主键 (primary key)。 如 果 该 属性 数据 经 常 被 其 他 属性 访问 ， 例 如 员工 的 姓 ， 那 
么 就 可 对 该 属性 本 身 再 建立 一 个 索引 。 

在 关系 数据 库 中 ， 一 个 索引 就 是 一 个 数据 结构 ， 根 据 索 引 系 统 能 够 找到 给 定 的 属性 值 ， 
并 迅速 找到 数据 库 中 具有 该 属性 值 的 所 有 记录 。 在 关系 数据 库 中 有 两 种 常用 的 索引 类 型 : 散 
列 索引 和 B- 树 索引 。 散 列 索引 可 以 快速 找到 具有 查询 属性 值 的 数据 记录 。B- 树 或 B+- 树 索引 能 
够 快速 查找 属性 值 落 在 查询 指定 范围 内 的 记录 。 

1. 散 列 索引 

散 列 索 引 应 用 散 列 表 理论 访问 数据 库 中 的 大 量 记 录 。 假 设 存在 一 个 庞大 的 键 值 集合 ， 而 
只 有 一 小 部 分 同时 出 现在 数据 库 中。 假设 数据 库 是 包含 N 个 记录 的 文件 ， 每 个 记录 包含 多 个 字 
段 ， 其 中 一 个 字段 存放 键 值 。 散 列 索引 的 访问 机 制 是 通过 散 列 函数 实现 的 ， 散 列 函 数 把 每 个 
键 值 与 文件 内 的 一 个 地 址 对 应 起 来 ， 文 件 中 包含 (或 指向 ) 该 特殊 键 值 的 数据 库 记 录 。 如 果 
键 值 是 数字 ， 一 个 简单 的 散 列 函 数 是 f(x) =x mod N(x 对 N 取 模 )， 也 就 是 把 x 除 以 N 所 得 的 余数 
作为 要 访问 记录 的 记录 号 。 图 8-11 显 示 具 有 数字 键 值 的 数据 库 散 列 索 引 。 这 个 散 列表 有 0 到 9 
十 个 位 置 (实际 散 列表 会 比 这 大 的 多 )， 散 列 函数 取 f(x) = x mod 10 (x 对 10 取 模 ) 。 如 图 所 示 ， 
当 检索 所 有 键 值 为 45 的 记录 时 ， 在 散 列表 中 ， 通 过 散 列 函数 映射 到 位 置 5。 

如 果 每 个 键 值 对 应 散 列表 中 的 一 个 位 置 ， 那 么 对 于 任何 给 定 的 键 值 ， 访 问 散 列表 所 用 的 
时 间 就 是 一 个 常量 。 但 一 般 来 说 ， 这 种 情况 不 会 发 生 。 相 反 ， 几 个 不 同 的 键 值 很 可 能 对 应 到 
相同 的 位 置 ， 称 这 种 现象 为 冲突 (collision)。 解 决 冲突 的 方法 ， 可 以 在 所 有 数据 结构 的 教科 
书 中 找到 。 图 中 所 示 的 方法 是 采用 一 个 包含 所 有 记录 的 链表 ， 其 中 的 键 值 对 应 散 列表 的 同一 
位 置 。 最 后 的 结果 是 ， 当 访问 数据 库 时 都 要 进行 一 些 搜索 ， 而 不 是 简单 的 直接 读 取 。 但 如 果 
散 列国 数 合适 ， 散 列表 又 不 是 很 满 ， 访 问 时 间 仍然 近似 为 常数 。 散 列 索引 的 性 质 ， 决 定 了 它 
最 适 于 查询 准确 约束 的 情况 ， 即 KEY = VALUE， 而 不 适 于 查询 键 值 属 于 某 个 范围 的 情况 。 
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图 8-11 


列 索 引 实 例 


2. B*- 树 索引 
B- 树 和 B*- 树 都 是 平衡 的 多 路 搜索 树 ， 可 用 于 建立 索引 ， 并 适用 于 范围 查询 。B- 树 的 内 部 
节点 和 叶子 节点 都 带 有 键 值 和 数据 ， 而 B*- 树 只 有 叶子 节点 带 有 数据 。 下 面 我 们 将 集中 讨论 B+- 
树 ， 因 为 数据 库 中 的 数据 和 索引 应 该 分 开 。 
P 又 搜索 树 的 每 个 节点 最 多 含有 p--1 个 键 值 和 p 个 指针 。B*- 树 的 内 部 节点 和 叶子 节点 具有 
不 同 的 形式 。B*- 树 的 内 部 节点 遵从 如 下 约束 条 件 
(1) 它 的 形式 为 《Pi, Ky, Pao Ky, Por, Koo Ps,)， 其 中 PP, 代表 指向 其 他 节点 的 指针 ，KK 
代表 键 值 。 直 观 上 ，P;_ ,所 指向 的 子 树 包 含 的 所 有 键 值 都 小 于 等 于 K;,， 而 Pj 所 指向 的 
子 树 包含 的 所 有 键 值 都 大 于 K。 
(2) 非 根 节点 至 少 有 (p/2) 个 子 树 指针 。 
(3) 根 节点 至 少 有 2 个 子 树 指针 。 
B*- 树 的 叶子 节点 遵从 如 下 约束 条 件 : 
(1) 它 的 形式 为 《Ki, Pr, EK, Pry, ... ,Kq-1, Pu-i Pret? + 其 中 ;代表 键 值 ，Pr, 是 一 个 数据 
指针 ，P,。。 指 向 下 一 个 叶子 节点 
(2) Pr 指向 一 个 键 值 为 K 的 记录 ; 当 索 引 的 搜索 字段 不 是 文件 的 键 值 时 ，Pr, 则 指向 符合 
条 件 的 多 记录 数据 块 。 
(3) 每 个 叶子 节点 有 (p/2) ME. 
(4) 所 有 的 叶子 节点 在 树 的 同一 层次 上 。 
B”- 树 内 部 节点 的 又 数 P 可 能 和 叶子 节点 不 同 ， 目 的 是 为 了 让 每 种 类 型 的 节点 与 物理 存储 
块 相 适应 ， 这 些 物 理 存储 块 是 指 从 磁盘 传输 到 计算 机 内 存 的 单位 数据 量 。 
为 在 B*- 树 中 找到 给 定 的 键 值 或 值 的 范围 ， 查 询 系统 从 根 节点 开始 搜索 。 系 统 将 节点 读 入 
内 存 ， 对 该 节点 的 键 值 进行 二 分 搜寻 。 如 果 找 到 该 节点 处 的 两 个 相 邻 的 键 值 ， 而 且 这 两 键 值 
之 间 包 含 给 定 的 键 值 ， 那 么 这 两 键 值 之 间 的 指针 所 指向 的 子 树 将 包含 给 定 的 键 值 或 给 定 键 值 
范围 的 最 小 值 。 如 果 给 定 的 键 值 小 于 节点 中 的 第 一 个 键 值 ， 该 键 值 左边 的 指针 指向 正确 的 子 
树 。 同 样 ， 如 果 给 定 的 键 值 大 于 节点 中 的 最 后 一 个 键 值 ， 该 键 值 右边 的 指针 指向 正确 的 子 树 。 
一 旦 确定 了 合适 的 子 树 、 它 就 成 为 进一步 搜索 的 树 根 节点 。 检 索 系 统 重复 进行 这 些 运 算 直 到 
得 到 叶子 节点 为 止 。 
在 叶子 节点 中 ， 再 次 执行 二 分 搜寻 以 找到 给 定 的 键 值 或 键 值 的 起 始 值 K,。 相 关 指针 P, 指 向 
包含 该 键 值 的 数据 记录 。 如 果 仅 查找 一 个 键 值 ， 则 现在 可 以 返回 相关 记录 。 如 果 这 是 一 个 范围 
搜索 ， 数 据 记 录 的 Ps 指针 可 用 于 寻找 余下 的 数据 记录 ， 直 到 遇 到 给 定 键 值 范 围 的 未 端 为 止 。 
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图 8-12 是 一 个 B*- 树 实例 ， 通 过 数字 键 值 和 图 像 数据 检索 数据 库 记 录 。 内 部 节点 用 实 线 从 
形 框 表示 ,叶子 节点 用 虚线 矩形 框 表示 。 根 市 点 指向 三 个 不 同 的 子 树 : 键 值 小 于 等 于 100 的 子 
树 ; 键 值 介 于 100 和 200 之 间 的 子 树 ; 键 值 大 于 200 的 子 树 。 如 图 所 示 ， 键 值 介 于 100 和 200 之 间 
的 子 树 ， 其 根 节点 指向 两 个 叶子 节点 : 一 个 键 值 小 于 110 的 叶子 节点 和 一 个 键 值 介 于 110 和 150 
之 间 的 叶子 节点 。 叶 子 节点 包含 实际 的 键 值 和 相关 的 图 像 数据 文件 。 

B-- 树 灵活 有 效 ， 广 泛 应 用 于 关系 数据 库 系统 。 它 们 可 用 于 图 像 数据 库 系统 来 检索 与 图 像 
有 关 的 单个 数值 或 文本 字段 。 它 们 不 适用 于 检索 多 维 数据 。 






键 值 < 100 的 子 树 





图 8-12 B*- 树 索引 实例 


8.5.2 空间 索引 

空间 信息 系统 包含 的 数据 是 多 维 的 。 针 对 空间 索引 已 经 提出 了 许多 数据 结构 。 四 又 树 是 
一 种 分 层 结 构 ， 每 个 节点 具有 4 个 分 区 ， 即 在 树 的 每 一 层 将 2D 数 据 的 搜索 空间 分 成 4 个 子 区 
(quadrant)。 四 又 树 可 用 于 表示 二 值 图 像 中 的 区 域 。K-d 树 是 对 二 又 搜索 树 的 扩展 ， 支 持 对 k 维 
数据 的 搜索 。R- 树 是 B- 树 向 更 高 维 数 的 扩展 ， 适 用 于 各 种 空间 信息 系统 。 在 R- 树 中 ， 用 一 个 n 
维 的 最 小 边界 矩形 (MBR ) 检索 一 个 数据 对 象 ， 它 限制 对 象 所 占据 的 空间 。 每 个 实际 数据 对 
象 用 唯一 的 标识 符 (ID) 表示 。R- 树 的 叶子 节点 包含 数据 对 象 的 ID 。 内 部 节点 包含 形 如 MBR、 
CHILD 的 实体 ， 其 中 CHILD 是 指向 R- 树 中 更 低层 节点 的 指针 ，MBR 覆 盖 了 更 低层 节点 实体 的 
所 有 和 抵 形 。 图 8-13 显 示 2D 对 象 集 的 R- 树 索引 。 和 抑 形 的 分 布 取决 于 树 构造 的 顺序 以 及 所 用 的 R- 
树 构造 算法 。R- 树 存在 其 他 一 些 变 形 ， 如 R*- 树 和 R' 树 。 
85.3 基于 内 容 的 多 距离 测度 图 像 索引 

上 述 方 法 利用 简单 的 距离 测度 进行 图 像 检 索 ， 其 中 只 使 用 单一 特征 或 者 少数 几 个 特征 ， 
不 运用 于 大 型 通用 系统 。 大 型 系统 允许 用 户 选 择 多 个 基本 距离 测度 以 及 集成 的 方法 。 这 种 系 
统 需 要 更 灵活 的 组 织 和 索引 形式 。 如 果 基 本 度量 采用 公制 单位 ， 那 么 三 角 不 等 式 可 以 提供 非 
标准 的 索引 方法 。 三 角 不 等 式 说 明 ， 如 果 Q 是 一 幅 查 询 图 像 ，/ 是 数据 库 中 的 一 幅 图 像 ，K 是 特 
意 选 择 的 关键 图 像 ， 那 么 对 于 任意 图 像 距 离 测 度 d， 下 列 关 系 成 立 : 

d(I, Q) > |d(1, K) — d(Q, K)| 


将 数据 库 中 的 图 像 和 查询 图 像 都 与 第 三 幅 关 键 图 像 做 比较 ， 可 以 得 到 查询 图 像 与 数据 库 图 像 
之 间距 离 的 下 界 。 ， 
首先 考虑 单个 距离 测度 d 的 情况 。 从 数据 库 中 选择 一 组 关键 图 像 ， 直 观 上 ， 这 些 图 像 应 代 
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表 数 据 库 中 的 不 同 场景 类 别 。 查 询 图 像 0 与 每 个 关键 图 像 K,, K,,…, Kw 比较 ， 得 到 一 组 距离 
d(O, Ky), d(O, K3), dO, Kw)。 假 设 用 户 已 
经 规定 ， 要 返回 所 有 离 查询 图 像 2 的 距离 小 
于 7 的 图 像 ， 那 么 对 于 每 个 关键 图 像 X,， 所 
有 满足 下 式 的 图 像 7 就 可 以 立即 排除 ， 因 为 
dll, Q) 肯定 大 于 7。 
ld(I, Ki) — d(Q, K)| > T 

三 又 树 数据 结构 就 利用 这 种 方法 ， 并 通 
过 与 查询 图 像 的 直接 比较 排除 数据 库 中 的 大 
多 数 图 像 。 对 这 项 技术 进行 扩展 ， 可 动态 定 
义 距离 测度 ， 该 距离 测度 是 基本 距离 测度 的 
线性 组 合 或 者 布尔 组 合 。 ` 


索引 
假设 一 组 图 像 根 据 Laws 的 纹理 能 量 测 
度 建立 索引 ， 解 释 如 何 利 用 R- 树 作为 系统 的 
索引 机 制 。 
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的 著作 (1990) 中 描述 了 通用 的 空间 数据 结构 。 
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第 9 章 ”二 维 运动 分 析 

图 像 序列 能 够 反映 场景 的 动态 变化 。 人 们 通过 视频 观看 行家 的 动作 ， 就 可 以 学 习 打 高 尔 
KR; 或 者 每 隔 儿 小 时 摄取 一 次 植物 根部 的 图 像 ， 然 后 观察 得 到 的 图 像 序列 ， 可 以 更 好 地 理 
解 根 部 的 生长 情况 。 场 景 中 的 物体 运动 、 观 测 器 运动 、 或 者 物体 与 观测 器 同时 运动 ， 是 产生 
图 像 运 动 现 象 的 原因 。 图 像 序列 中 的 运动 特征 ， 能 够 用 来 检测 其 中 的 运动 目标 ， 或 计算 目标 
的 运动 轨迹 。 在 观测 器 运动 而 环境 静止 的 情况 下 ， 又 可 以 通过 图 像 中 的 变化 计算 观测 器 在 环 
境 中 的 运动 情况 。 

同样 ， 图 像 中 的 像素 变化 包含 着 重要 的 特征 ， 这 些 特征 可 用 于 目标 检测 与 识别 。 图 像 运 
动能 够 揭示 物体 的 形状 以 及 其 他 特性 ， 如 运动 速度 或 功能 。 对 物体 随时 间 运 动 的 情况 进行 分 
析 ， 可 以 说 是 我 们 研究 的 最 终 目 标 ， 例 如 对 交通 流量 进行 控制 ， 或 者 对 装 有 新 假肢 人 员 的 步 
态 进 行 分 析 。 目 前 人 们 保存 了 大 量 的 视频 信息 ， 记 录 着 各 种 事件 和 场景 结构 。 有 必要 寻找 合 
适 的 分 割 技 术 ， 把 这 些 图 像 序列 变 成 有 意义 的 事件 或 场景 ， 以 方便 访问 、 分 析 和 修改 。 

本 章 主要 讨论 基于 二 维 图 像 和 视频 序列 的 运动 检测 ， 以 及 图 像 特征 的 抽取 方法 。 针 对 前 
面 提 到 的 应 用 问题 ， 探 讨 有 关 解 决 办 法 。 第 13 章 讨论 如 何 基于 二 维 图 像 进行 三 维 结构 和 运动 
的 分 析 。 

9.1 运动 现象 及 应 用 

我 们 需要 对 图 像 序列 中 的 各 种 运动 情况 进行 分 析 ， 并 对 有 关 应 用 问题 进行 讨论 。 要 研究 
的 内 容 不 只 是 检测 出 一 个 运动 目标 ， 还 要 研究 多 运动 目标 情况 下 的 运动 分 析 和 形状 分 析 。 

运动 大 体 划 分 为 以 下 四 种 情况 ， 其 中 术语 摄像 机 (camera) 与 术语 观测 器 (observer) 可 
以 互 换 使 用 。 

e 摄像 机 静止 ， 单 个 目标 运动 ， 背 景 不 变 。 

。 摄 像 机 静止 ， 多 个 目标 运动 ， 背 景 不 变 。 

。 摄 像 机 运动 ， 场 景 不 变 。 

。 摄像 机 运动 ， 多 个 目标 运动 。 

最 简单 的 情况 是 ， 传 感 器 是 静止 的 ， 而 且 目标 所 在 的 背景 也 是 不 变 的 。 目 标 在 背景 中 的 
运动 ， 引 起 图 像 中 与 之 对 应 部 分 的 像素 发 生变 化 。 对 这 些 像素 进行 分 析 能 够 揭示 目标 的 形状 
及 其 运动 的 速度 和 路 径 。 这 种 传感器 一 般 用 在 安全 防护 场合 。 家 庭 应 用 中 ， 常 常 利用 这 种 传 
感 器 检测 快速 运动 的 目标 ， 这 种 快速 运动 可 能 是 户主 回 到 家 中 或 着 是 陌生 人 间 人 入 室内 所 产生 
的 ， 这 时 电灯 就 会 自动 打开 。 这 种 简单 的 运动 传感器 ， 也 可 用 在 制造 业 ， 用 来 检查 工作 室内 
某 个 零件 是 否 存在 ; 或 用 在 交通 控制 系统 中 ， 检 测 车 辆 的 运动 。 

静止 摄像 机 捕 提 的 数据 ， 也 可 用 于 分 析 一 个 或 多 个 目标 的 运动 情况 。 为 得 到 目标 运动 的 
轨迹 或 路 径 ， 需 要 随时 对 运动 目标 进行 跟踪 ， 这 反 过 来 又 可 以 揭示 目标 的 行为 。 比 如 利用 摄 
像 记 录 可 对 进入 营业 大 厅 或 工作 室 人 员 的 行为 进行 分 析 。 同 时 采用 几 台 摄像 机 ， 能 够 得 到 同 
一 目标 不 同 视点 的 图 像 ， 并 据 此 计算 出 它 的 三 维 路 径 。 在 对 运动 员 或 病人 的 康复 情况 进行 分 
析 时 ， 常 常 要 用 到 多 台 报 像 机 。 目 前 正在 开发 的 一 个 系统 中 ， 对 网 球 比赛 中 运动 员 和 网 球 的 
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轨迹 进行 跟踪 ， 并 对 比赛 的 各 要 素 进 行 分 析 。 

即使 外 界 三 维 环境 不 变 ， 摄 像 机 自身 的 运动 也 会 引起 图 像 发 生变 化 。 这 种 运动 模式 有 以 
下 几 方 面 的 优点 。 首 先 ， 比 单一 视点 有 更 大 的 观察 范围 ， 比 如 摄像 机 扫 视 时 ， 就 能 得 到 关于 
场景 的 全 景 视野 其次， 能够 计算 目标 的 相对 深度 ， 因 为 近 处 目标 的 图 像 要 比 远 处 目标 的 图 
像 变 化 快 ; 再次， 能 够 感知 或 测量 近 处 目标 的 三 维 形状 ， 多 视点 观察 可 采用 与 双 目 立体 视觉 
类 似 的 三 角 计算 。 处 理 与 分 析 视 频 或 电影 内 容 时 ， 当 摄像 机 扫 视 或 者 变焦 时 ， 需 要 及 时 进行 
点 的 检测 。 这 时 我 们 可 能 对 景物 的 内 容 不 感 兴趣 ， 而 对 观察 景物 的 方式 感 兴趣 。 

最 困难 的 运动 问题 是 ， 不 仅 传感器 在 运动 ， 而 且 场景 中 的 多 个 目标 也 在 运动 ， 根 本 无 法 
确定 背景 中 的 哪些 部 分 是 不 变化 的 。 移 动机 器 人 在 繁忙 的 交通 要 道中 行驶 就 属于 这 种 情况 。 
另 一 种 有 意思 的 情况 是 ， 为 了 跟踪 工作 室内 不 同 的 运动 目标 ， 几 个 摄像 机 之 间 要 保持 联络 ， 
使 所 得 的 图 像 之 间 存 在 一 定 的 对 应 关系 。 

下 一 市 介绍 各 种 图 像 分 析 方 法 ， 主 要 针对 含 两 幅 以 上 图 像 的 图 像 序列 ， 目 的 是 对 运动 引 
起 的 图 像 变化 进行 检测 ， 或 者 对 物体 本 身 及 其 运动 进行 分 析 。 


寻找 控制 自动 开 灯 的 运动 检测 器 。 这 些 设备 一 般 安装 在 车 库 或 住所 的 入 口 处 。 验 证 当 你 
快速 进入 室内 时 电灯 会 自动 打开 。(a) 如 果 你 非常 慢 地 移动 ， 看 看 运动 检测 器 是 不 是 没有 反 
应 ? (b) 这 说 明 运 动 检测 器 是 如 何 工作 的 ? (c) 这 与 电影 侏 罗 纪 公园 中 的 霸王 龙 雷 克 斯 有 
相关 的 地 方 吗 ? 


9.2 图 像 相 减 | 
在 第 1 章 引入 了 图 像 相 减 的 概念 ， 用 于 检测 背景 不 变 情况 下 的 运动 目标 。 假 设 视频 摄像 机 
以 每 秒 30 帧 摄取 传送 带 图 像 ， 其 中 传送 带 背 景 为 黑色 。 如 果 较 亮 的 物体 在 摄像 机 视野 前 移 过 ， 
物体 的 前 边 与 后 边 在 相 邻 的 两 帧 图 像 中 只 有 几 个 像素 的 位 移 。 如 果 相 邻 的 两 帧 图像 相 减 ， 即 
7- 减 去 1， 这 些 边 将 保留 下 来 ， 并 且 明 显 区 分 于 背景 值 。 
图 9-1 显 示 工 作 室 监 视 系 统 中 相 邻 两 帧 图 像 的 差分 结果 ， 两 幅 图 像 之 间 间 隔 几 秒 钟 。 这 个 
例子 中 的 背景 图 像 通过 大 量 的 视频 帧 算出 ， 背 景 是 不 均匀 的 。 一 个 人 进入 工作 室 ， 引 起 图 像 
中 的 某 个 部 分 发 生变 化 ， 通 过 图 像 相 减 可 以 检测 出 这 个 人 的 存在 ， 如 图 9-1 所 示 。 图 中 的 边界 
框 内 部 是 检测 到 的 变化 区 域 。 进 一 步 分 析 该 边界 框 ， 可 以 得 出 目标 的 形状 甚至 所 属 的 类 型 。 
图 9-1 中 中 间 的 那 幅 图 实际 上 显示 出 三 个 不 同 的 变化 区 域 ， 分 别 是 : (1) 人 ，(2) 被 人 打开 的 
门 ，(3) 计算 机 显示 器 。 可 以 事先 为 监视 系统 提供 目标 的 位 置信 息 ， 甚 至 可 以 提前 确定 要 重 
点 监视 或 忽略 的 部 分 。 例 如 ， 应 该 对 门 进行 重点 监视 ， 而 忽略 显示 器 部 分 的 变化 。 该 技术 可 
253] 用 于 停车 场 监视 与 记录 、 街 道 交通 流量 监视 、 室 内 人 员 监 视 等 。 
利用 相 减 法 检测 图 像 变化 的 步骤 见 算法 9.1， 其 中 涉及 到 的 运算 方法 在 第 3 章 中 已 经 给 出 。 
算法 9.1 利用 图 像 相 减 检测 两 幅 图 像 之 间 的 变化 
输入 I[r, e] 与 IJ-A[r, c]， 是 两 幅 黑 白 图 像 时 间 间 隔 A 秒 。 
输入 砷 亮度 阔 值 。 
输出 Ioulr, c] 是 二 值 图 像 ，B 表 示 边 界 框 的 集合 。 
1. 对 于 两 幅 输 入 图 像 上 的 所 有 像素 [r, cl, 
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WAR (Lir, cl-I-A[r c> t) Wi ulr, ec]=1 

否则 Loulr, ec]=0。 

2. 抽 取 Iwt 上 的 连通 成 分 。 

3. 去 掉 噪 声 小 区 域 。 

4. 用 小 圆 盘 形 的 结构 元 对 Lu 进行 闲 运 算 ,与 邻 域 融合 。 
5. 计 算 像素 变化 区 域 的 边界 框 。 

6. 返 回 Iou[r, c] 及 像素 变化 区 域 的 边界 框 集 B。 












图 9-1 (S.-W.Chen. 提 供 ) 


(ER) 一 个 人 在 工作 室 出 现 
(中 图 ) 图 像 相 减 结果 ， 存 在 三 个 变化 区 域 : 背景 被 人 挡住 的 区 域 、 门 和 显示 器 处 
( 右 图 ) 由 人 引起 的 变化 更 显著 ， 其 他 两 处 变化 是 预料 之 中 的 ， 因 此 可 忽略 掉 
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该 习题 需要 一 台 工作 站 ， 工作站 上 配 有 摄像 机 及 图 像 存 取 软件 。 编 写 程序 ， 对 你 的 桌子 
上 方 进行 监视 (工作 站 附近 )。 程 序 应 能 捕捉 图 像 ， 并 计算 每 幅 图 像 的 直方 图 ， 每 当 直方 图 有 
显著 变化 时 ， 系 统 应 发 出 警报 。 针 对 各 种 静态 场景 ， 以 及 从 桌子 上 取 放 物体 时 ， 测 试 所 编程 
序 的 运行 情况 。 
9.3 计算 运动 向 量 

三 维 场景 中 点 的 运动 ， 引 起 投影 到 图 像 上 的 对 应 点 的 运动 。 图 9-2 是 三 种 典型 情况 。 静态 
摄像 机 焦距 减 小 或 焦距 不 变 而 摄像 机 逐渐 远离 景物 时 ， 可 引起 图 像 收 缩 。 其 中 沿 光 轴 方向 有 
一 点 的 图 像 不 发 生变 化 ， 该 点 称 为 收缩 中 心 (focus of contraction). 静态 摄像 机 焦距 增加 或 
摄像 机 逐渐 接近 膨胀 中 心 (focus of expansion) 可 引起 图 像 膨 胀 ， 其 中 膨胀 中 心 的 图 像 不 发 
生变 化 。 摄 像 机 扫 视 或 我 们 的 头 部 转动 ， 会 引起 三 维 点 在 图 像 上 的 对 应 点 产生 移动 ， 如 图 9-2 
中 的 右 图 所 示 。 








图 像 收缩 镜头 从 右 向 左 转动 


图 9-2 焦距 变化 和 扫 视 引起 图 像 特征 的 变化 。 焦 距 变化 效果 与 我 们 远离 和 接近 景物 时 
所 看 到 的 情景 类 似 。 镜 头 扫 视 与 我 们 转动 头 部 时 所 看 到 的 情景 类 似 
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定义 70 ”三 维 空间 中 点 的 运动 ， 投 影 到 图 像 中 对 应 一 个 二 维 向 量 ， 由 这 些 二 维 向 量 

构成 的 二 维 阵列 称 为 图 像 运 动 场 (motion field) (参见 图 9-2)。 图 像 运 动向 量 是 指 ， 

三 维 空间 中 点 的 运动 投影 到 图 像 空间 所 对 应 的 位 移 。 对 应 同一 个 三 维 运动 点 ， 在 1 时 

刻 的 图 像 点 到 (1 + A) 时 刻 的 图 像 点 之 间 ， 形 成 运动 向 量 , 或 者 说 运动 向 量 与 1 时刻 

的 瞬时 速度 估计 值 对 应 。 

定义 71 ” 当 传感器 接近 目标 时 ， 图 像 上 有 一 个 特殊 的 点 ， 所 有 的 运动 场 向 量 都 从 该 

点 发 出 ， 这 个 点 就 是 膨胀 中 心 。 膨 胀 中 心 一 般 对 应 着 传感器 前 移 时 所 注视 的 三 维 点 。 

当 传 感 器 远离 目标 时 ， 图 像 上 也 有 一 个 特殊 的 点 ， 所 有 的 运动 向 量 都 会 聚 于 该 点 ， 

这 个 点 就 是 收缩 中 心 。 收 缩 中 心 一 般 对 应 着 传感器 后 退 时 所 注视 的 三 维 点 。 

运动 场 的 计算 不 仅 能 用 于 目标 识别 ， 又 能 用 于 运动 分 析 。 为 了 计算 运动 向 量 ， 一 般 要 附 
加 如 下 两 个 约束 条 件 之 一 ， 但 约束 性 不 是 很 强 。 一 是 估计 三 维 点 P 在 (1), t) 期 间 的 运动 特 
性 时 ， 假 设 该 点 及 其 周围 的 亮度 基本 保持 不 变 ; 或 者 是 假设 在 (1), 6) 期 间 ， 图 像 上 物体 边 
缘 处 的 亮度 差别 基本 保持 不 变 。 

定义 72 对 应 点 附近 的 图 像 亮 度 相对 不 变 时 所 得 到 的 运动 场 称 为 图 像 流 (image flow). 

下 面 给 出 两 种 计算 图 像 流 的 方法 。 首 先 我 们 先 介绍 一 个 基于 运动 场 技术 的 视频 游戏 。 
9.3.1 Decathlete 游 戏 

在 日 本 相模 原市 的 三 菱 电子 和 在 马萨诸塞 州 剑桥 市 的 三 葵 电 子 研究 室 的 研究 人 员 ， 用 运 
动 分 析 方法 去 控制 Sega Saturn Decathlete 游 戏 。 他 们 采用 一 台 低 分 辩 率 摄像 火 ， 用 计算 图 像 流 
的 方法 取代 了 键盘 。 游 戏 中 实际 运动 员 的 手臂 运动 控制 着 仿真 运动 员 的 运动 。 在 例子 中 ,， 仿 
真 运动 员 正 与 另 一 位 进行 跨栏 比赛 。 在 图 9-3 中 ,左边 是 运动 员 ， 正 通过 手 璧 做 跑步 动作 。 他 
运动 得 越 快 ， 仿 真 运动 员 跑 得 也 越 快 。 运 动员 举 起 双 拳 表示 跳 越 时 ， 仿 真 运动 员 也 要 适时 地 
跳 过 栏 架 。 在 图 9-3 的 右边 ,显示器 中 显示 的 是 仿真 比赛 的 现场 情况 。 图 的 右 下 角 是 一 台 摄像 
机 ， 用 来 捕捉 实际 运动 员 的 手势 。 图 中 的 另外 两 个 人 正在 欣赏 这 个 操作 过 程 。 








图 9-3 左边 的 人 通过 手臂 做 出 跑步 动作 控制 跨栏 比赛 。 右 边 显示 仿真 比赛 的 现场 。 
右 下 角 是 一 台 摄 像 机 ， 用 来 捕捉 运动 员 的 手势 运动 ， 据 此 去 控制 仿真 运动 
员 的 跑步 速度 和 跳 越 动 作 (参考 IEEE Computer Graphics,vol.18， no.3,May- 
June,1998。IEEE 授 权 ) 


图 9-4 用 于 控制 跨栏 比赛 的 运动 分 析 示意 图 。 图 9-4a 是 运动 分 析 的 简单 示意 图 ， 图 9-4b 是 
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对 a 图 的 注解 图 。 注 意 a 图 的 左上 角 是 摄像 机 摄取 的 运动 员 做 出 跑步 动作 的 一 帧 视频 ， 而 a 图 的 
左边 靠 中 间 位 置 是 从 多 帧 视频 中 抽取 的 运动 向 量 。a 图 的 左下 角 是 根据 视频 得 出 的 在 水 平方 向 
上 的 平均 运动 轨迹 ，a 图 的 中 间 是 垂直 方向 上 的 平均 运动 轨迹 。 


ain 
7k bt 


z - 
光 
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图 9-4 控制 跨栏 比赛 的 运动 分 析 方 法 ， 在 a 图 中 ， 左 上 角 显 示 运 动员 做 出 跑步 
动作 的 一 帧 视频 ; 左边 靠 中 间 位 置 是 从 多 帧 视频 图 像 中 抽取 的 运动 向 
量 ;中 间 的 垂直 运动 曲线 表示 跨栏 动作 (参考 IEEE Computer Graphics, 
vol.18, no.3,May-June,1998。IEEE 授 权 ) 

当 运 动员 “ 跑 ” 和 “ 跳 ” 的 时 候 ， 摄 像 头 必须 能 看 到 运动 员 的 双手 。 跑 步 动 作 引 起 水 平 
方向 的 平均 运动 发 生变 化 。 变 化 的 频率 说 明 运 动员 的 速度 有 多 快 ， 并 据 此 控制 仿真 运动 员 的 
速度 。 跳 越 动作 造成 垂直 方向 的 平均 速度 大 于 一 个 冰 值 ， 于 是 向 仿真 运动 员 发 出 跳 越 命令 。 
这 种 方法 的 空间 分 辩 率 很 低 但 时 间 分 辩 率 很 高 。 

Decathlete 游 戏 中 用 到 的 简单 运动 分 析 方 法 ， 也 许 能 作为 一 般 的 计算 机 手势 接口 。 例 如 ， 
未 来 计算 机 系统 的 输入 方式 允许 使 用 美国 手语 ， 或 者 是 小 语种 手语 。 

9.3.2 点 对 应 

Wt AE AA (+A) 时 刻 两 幅 图 像 上 的 对 应 点 ， 可 以 计算 出 稀疏 运动 场 。 选 用 的 这 
些 点 要 有 一 定 的 特殊 性 ， 要 在 两 幅 图 中 都 能 识别 出 来 而 且 能 确定 它们 在 图 像 中 的 位 置 。 无 论 
是 彩色 图 像 还 是 黑白 图 像 ， 都 应 选择 角 点 或 高 度 兴 趣 点 (high interest point)。 在 进行 彩色 图 
像 分 割 时 ， 可 能 要 用 到 持续 运动 区 域 的 中 心 。 检 测 角 点 时 可 以 用 模板 法 ， 如 Kirsch 边 缘 算 子 ， 
或 者 Frie-Chen 算 子 集中 (第 5 章 ) 的 波纹 模板 ， 也 可 用 兴趣 算 子 (interest operator)。 该 算 子 
计算 以 P 为 中 心 的 邻 域 在 垂直 、 水 平和 两 对 角 线 方向 上 的 亮度 变化 。 只 有 当 这 四 个 变化 值 中 的 
最 小 值 超过 一 个 姜 值 时 ，P 点 才能 做 为 一 个 兴趣 点 。 具 体 参见 算法 9.2。 另 一 种 基于 纹理 的 算 
子 作为 习题 9.3 的 设计 内 容 。 


算法 9.2 检测 感 兴趣 的 图 像 点 
procedure detect_corner_points(I, V); 


{ 





\\I[r, ce] 是 MaxRow 行 、MaxCol 列 的 输入 图 像 。 

\V 是 从 I 中 搜索 出 的 兴趣 点 的 集合 ， 是 算法 的 输出 。 
\z 是 兴趣 算 子 的 阔 值 。 

\w 是 兴趣 算 子 邻 域 宽度 的 一 半 。 





N 








for r := 0 to MaxRow- 1 
for c := 0 to MaxCol-1 
{ 
if I[r, c] is a border pixel then break; 
else if (interest_operator (I, r, c, w) > T,)then add 
[(r, c), (r, c)]to set V; 
\ 第 二 个 (cc) 保 存 后 面 发 现 的 向 量 前 端 。 
} 
} 
real procedure interest_operator(I, r, c, w) 
{ 
\w 是 算 子 窗口 宽度 的 一 半 。 
\ 参 见习 题 9.3 中 的 纹理 兴趣 算 子 。 
v1 := variance of intensity of horizontal pixels I,[r, c—w] ... I,[r, c+w]; 
v2 :=variance of intensity of vertical pixels I,[r—w, c] ... I, [r + w, c]; 
v3 := variance of intensity of diagonal pixels I,[r-w, c-w] ... Lir + w, c+ w]; 
v4 := variance of intensity of diagonal pixels I,[r—w, c + w]... Lir + w, c—w]; 


return minimum{v1,v2,v3,v4}; 





纹理 兴趣 算 子 

试验 下 面 的 兴趣 算 子 ， 它 基于 n x n 邻 域 的 纹理 。 首 先 用 3 x 3 或 2 x 2 模板 计算 整 幅 输 入 图 
像 的 梯度 幅度 。 然 后 ， 把 幅度 图 阔 值 化 产生 二 值 图 像 。 只 有 当 二 值 图 像 中 B[r, c] 的 n x n 的 邻 域 
在 四 个 主要 方向 上 的 变化 显著 时 , 原始 图 像 的 像素 点 [x, c] 才 是 兴趣 点 。 在 方向 [Ar, Ac] = [0, 1]、 
[1, 0]、[1, 1]、[1, -1] 上 的 变化 量 ， 等 于 以 B[x, c] 最 佳 匹配 邻 域 
为 中 心 的 n x n 邻 域内 所 有 像素 的 B[r, c]@B[r +r, 
c+ Ac] 之 和 ， 其 中 @ 是 异 或 算 子 , 当 且 仅 当 两 项 输 
入 不 同时 结果 才 为 1。 如 上 所 述 把 B[r, c] 处 四 个 变 
化 量 的 最 小 值 赋 给 IN[r,c]， 就 得 到 一 幅 兴 趣 图 像 
(interest image)。 用 几 幅 黑白 图 像 包 括 棋盘 图 像 
测试 你 的 算 子 。 

一 旦 1 时刻 图 像 1 上 的 兴趣 点 集 {P,} 确 定 下 来 ， 
就 要 开始 找 出 (+t + A) 时 刻 图 像 忆 上 的 对 应 点 。 
我 们 的 方法 不 是 先 检测 图 像 疡 上 的 兴趣 点 再 判断 





对 应 性 ， 而 是 直接 对 进行 搜索 来 确定 1 上 的 点 在 aie e 

了 2 上 的 对 应 位 置 。 用 第 5 章 介 绍 的 交叉 相关 法 可 以 (放大 后 ) 

实现 这 个 要 求 。 已 知 1 上 的 兴趣 点 P)， 对 于 1 上 的 。 图 9-5 对 图 像 D 中 的 每 一 个 兴趣 点 (T,,T,)， 搜 
P 邻 域 ， 在 1, 上 寻找 与 之 最 相关 的 邻 域 ， 前 提 是 RLPS (Ty, T,) 邻 域 最 佳 匹配 的 矩形 


区 域 。 如 果 匹 配 得 好 ， 它 就 成 为 运动 向 


假设 运动 量 是 有 限 的 。 图 9-5 是 在 上 搜索 最 佳 邻 re tau) 
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域 的 方法 , ARRAS LP Baa EVE AC. FEL LA EARS RRP, = [Pi, Pi 作为 对 应 点 ， 
该 点 将 成 为 运动 向 量 的 前 端 ，P;= [Pi, Pxj 是 向 量 的 末端 。 对 Pi 的 搜索 限制 在 图 像 行 P, 一 R… P;, + 
RIJP,- C… Pet C 之 间 的 矩形 C x R 区 域内 。 搜 索 区 域 小 时 ， 会 加 快 搜索 速度 和 减 小 歧义 性 ， 
但 只 有 当 目 标的 运动 速度 在 一 定 范围 内 ， 算 法 才 是 可 用 的 。 算 法 步骤 参见 算法 9.3。 图 9-6 显 示 
算法 的 应 用 情况 。 使 三 个 纹理 明显 的 图 片 在 一 个 纹理 不 太 明显 的 背景 前 运动 ， 就 生成 了 实验 
图 像 。 
算法 9.3 计算 两 幅 图 像 中 兴趣 点 产生 的 运动 向 量 | | 
Lir, c]#0L[r, c] 是 MaxRow 行 、MaxCol 列 的 输入 图 像 。 
V 是 输出 运动 向 量 的 集合 {[(T,7)), (Ho HY} 
其 中 (TZ, T) (A, 昌 ) 分 别 为 运动 问 量 的 末端 和 前 端 。 
procedure extract_motion_field(1,, L, V) 
{ 
N 检 测 匹 配 的 角 点 ,返回 运动 向 量 V。 
Nz2 是 对 邻 域 进行 交叉 相关 运算 的 冰 值 。 
detect_corner_points(I,, V); 
for all vectors [(T, ,T,), (U,, U,)] in V 
match := best_match(I,, I, ‚T, , T,, Hp H); 
if (match < 1,) then delete [(7,, T,), (U,, U,)] from V; 
else replace ((T, ,T,), (U,, U) with [(T,, T), Ho H) in V; 











} . 
real procedure best_match(I,, I, ,T,, T,, Ho H,); 


WA. Hy) 作为 1, 中 最 佳 匹配 邻 域 的 中 心 返回 ， 该 邻 域 与 I 中 以 (T, TA DAI 


域 匹配 。 
Mh 与 sw 确定 搜索 的 矩形 范围 :4 与 w 确 定 邻 域 的 范围 。 
{ 


\ 第 一 次 指示 还 没 找到 最 佳 匹配 。 
H,:= —1; H,:= ~1; best:= 0.0; 
for r:= T,—sh to T, + sh 





for c:= T,—sw to T, + sw 





{ 
\ 如 第 5 章 所 描述 的 ， 把 I 中 的 N 与 1, 中 的 N 进 行 交 叉 相 关 。 
match := cross_correlate(Ij, L, T,, T,, r, c, h, w); 
if (match > best) then 
{ 
H, := r; H, : = c; best := match; 
} 
} 
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图 9-6 算法 9.3 的 应 用 
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结果 。 左 边 是 6 时 刻 的 图 像 ， 右 边 是 带 有 运动 分 析 结果 的 b 时 刻 的 图 像 。 


红色 方 框 表示 原始 邻 域 的 位 置 ， 是 对 左 图 运用 兴趣 算 子 检测 得 出 的 。 蓝 色 方 框 表 示 右 
图 中 与 左 图 最 佳 匹 配 的 邻 域 。 三 组 绿 线 是 表示 运动 向 量 ， 分 别 对 应 三 个 运动 目标 。 最 
左边 的 目标 向 下 偏 右 一 点 的 方向 运动 ， 最 下 面 的 目标 向 右 偏 下 一 点 的 方向 运动 ， 最 右 
边 的 目标 向 左 偏 上 一 点 的 方向 运动 。( 分 析 由 Adam T. Clark 提供) 参见 彩 图 9-6 
可 在 算法 9.3 中 加 入 迭代 控制 ， 每 次 分 析 两 帧 图 像 ， 最 后 连续 跟踪 多 帧 图 像 的 特征 点 。 第 
(t+ A) 帧 上 识别 到 的 角 点 ， 能 代 赫 前 面 第 巾 上 识别 到 的 角 点 ， 以 及 新 的 用 于 交叉 相关 运算 
的 邻 域 ， 这 个 新 邻 域 也 许 发 生 了 变化 。 只 要 动态 场景 中 重要 点 的 邻 域 是 逐渐 变化 的 ， 就 可 以 
用 这 种 方式 对 这 些 重要 的 特征 点 进行 跟踪 。 一 般 我 们 也 要 考虑 角 点 被 挡住 以 及 新 角 点 出 现 的 


可 能 。 这 些 内 容 将 在 第 9.4 节 讨论 。 


考虑 标准 棋盘 图 像 。(a) 设计 角 点 检测 器 ， 
只 检测 方块 的 四 个 角 点 ， 方块 内 部 及 沿 两 方 
块 之 间 边 线 上 的 点 不 检测 。(b) 摄像 机 静止 ， 
让 棋盘 图 像 慢 慢 移动 ， 拍 摄 几 幅 图 像 。(c ) 
利用 这 些 图 像 测试 你 设计 的 角 点 检测 器 ， 并 
给 出 检测 结果 ， 看 看 在 每 幅 图 上 正确 检测 出 
的 角 点 数 和 错误 检测 出 的 角 点 数 。(d) 对 于 
几 对 运动 量 不 大 的 图 像 ， 实 现 并 测试 算法 9.3。 
9.3.3 MPEG 视频 压缩 

MPEG 视 频 压缩 技术 采用 复数 运算 ， 最 
高 以 200:1 的 压缩 比 压缩 视频 流 。 可 以 注意 到 
MPEG 运 动 图 像 压缩 方法 与 算法 9.3 有 类 似 之 
处 。MPEG 的 子 目标 不 是 计算 运动 场 ， 而 是 
利用 预测 编码 压缩 图 像 序列 ， 即 从 一 些 图 像 
帧 预测 出 另 一 些 图 像 帧 。 重 要 的 不 在 于 运动 
向 量 正确 表达 了 运动 目标 ， 而 在 于 能 够 从 一 
幅 图 像 的 邻 域 高 质量 预测 出 另 一 幅 图 像 的 邻 
域 。MPEG 编 码 器 用 运动 向 量 取代 一 帧 中 的 
整个 16 x 16 的 图 像 块 ， 运 动向 量 确定 了 与 前 
面 某 帧 图 像 最 佳 匹 配 的 16 x 16 亮 度 块 的 位 
置 。 图 9-7 表 示 MPEG 压 缩 算法 中 用 到 的 运动 











图 9-7 MPEG 方 法 中 采用 运动 向 量 压缩 视频 序列 的 简 
ARER, 序列 中 包括 四 帧 图 像 : Fl. F2, F3, 
F4。F1 作 为 独立 帧 (I) ， 用 JPEG 单 帧 静态 图 
像 编 码 法 编码 。 对 F4， 根 据 F1 用 运动 向 量 附 加 
差分 块 进行 P 帧 预测 编码 : 16 x 16 的 像素 块 
(b1) 在 F1 中 的 对 应 位 置 ， 通 过 运动 向 量 附加 
差分 块 的 方法 进行 确定 。 中 间 帧 B1 与 B2 帧 完 
全 用 运动 向 量 插值 法 , 把 Fl 帧 中 的 像素 块 (b4) 
与 F4 帧 中 的 像素 块 (b5) 进行 平均 ， 重 构 16 x 
16 的 像素 块 (b2)。 尽 管 中 间 帧 F2 和 F3 最 初 是 
在 F4 之 前 形成 的 ， 也 只 有 当 F4 帧 被 解码 之 后 ， 
才能 对 中 间 帧 F2 与 F3 进 行 解码 。 中 间 帧 的 压缩 
率 最 高 ， 因 为 每 个 16 x 16 的 像素 块 只 用 两 个 运 
动向 量 表 示 。I 帧 的 压缩 率 最 低 
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售 计 方法 。 图 题 文字 对 该 方案 进行 了 详细 解释 。 没 有 采用 显著 图 像 点 ， 而 是 用 了 均匀 的 棚 格 
方块 ， 通 过 搜索 视频 序列 中 前 面 的 图 像 ， 从 而 找到 与 这 些 方块 相 匹 配 的 区 域 。 图 中 只 显示 了 
少数 几 个 方块 的 计算 过 程 。 理 想 情况 下 ， 每 个 16 x 16 的 方块 B, 可 用 一 个 向 量 [V,。V.], 代 赫 ， 编 
码 器 通过 这 个 向 量 来 确定 前 一 帧 的 最 佳 匹配 亮度 块 的 位 置 。 如 果 两 个 亮度 块 之 间 有 差异 ， 则 
可 用 少量 的 数位 表示 这 个 差异 并 进行 传送 。 

尽管 MPEG 中 运动 向 量 的 设计 是 为 了 压缩 的 目的 ， 而 不 是 为 了 运动 分 析 ， 研 究 人 员 已 经 开 
始 实验 用 运动 向 量 建立 运动 场 。 优 点 是 ，MPEG 编 码 器 现在 能 实时 计算 这 些 向 量 ， 而 且 已 经 
用 于 视频 流 中 。 未 来 的 信号 编 解码 器 也 许 真 的 能 提供 用 于 运动 分 析 的 运动 场 . l 





假设 视频 序列 中 每 帧 图 像 是 320 x 240 的 8 位 黑白 图 像 。 
(a) 中 间 帧 的 MPEG 编 码 的 输出 是 什么 ? 

(b) 表示 这 种 输出 需要 多 少 字 节 ? 

(c) 相对 原始 图 像 ， 中 间 帧 的 压缩 比 是 多 少 ? 


9.3.4 图 像 流 计算 * 

现 有 方法 已 经 能 够 估计 图 像 上 所 有 点 而 不 只 是 兴趣 点 的 图 像 流 。 我 们 来 研究 一 种 经 典 的 
方法 ， 它 至 少 根据 前 后 两 帧 图 像 同 时 算出 时 空 梯度 。 图 9-8 是 理想 情况 下 的 一 个 例子 ， 表 示 物 
体 在 摄像 机 面前 运动 时 摄像 机 所 观察 到 的 场景 。 左 下 角 是 4 时 刻 的 图 像 4， 显示- 个 三 角形 物 
体 ; 在 时 刻 的 图 像 b 中 ， 可 以 看 出 三 角形 物体 向 上 运动 了 一 段位 移 。 从 这 个 简单 的 例子 出 发 ， 
引出 我 们 在 研究 图 像 流 数学 模型 时 需要 做 出 的 儿 个 假设 。 

“假设 在 [4, 可 时 间 段 内 ， 目 标 物体 的 反射 率 和 光照 度 不 变化 。 

* 假设 在 这 段 时 间 内 ， 目 标 离 摄像 机 或 光源 的 距离 没有 显著 变化 。 

“假设 在 4 时 刻 的 亮度 邻 域 NW ,， 在 时 刻 能 被 观察 到 ， 新 的 位 置 是 N,,,, 

对 实际 图 像 来 说 这 儿 条 假设 并 不 是 很 强 的 约束 条 件 ， 但 有 时 计算 图 像 流向 量 时 是 必须 江 
四 的 。 我 们 用 一 个 简单 的 离散 型 例子 引出 图 像 流 理 论 ， 后 面 从 带 连续 空间 参数 的 连续 亮 诬 针 
Bix, y)， 导 出 图 像 流 方程 。 





参考 图 9-8。 亮 度 函 数 为 f(x, y, t). ZE 


i 时刻 图 像 上 空间 坐标 是 x = y = 4 的 像素 ， 即 3333333333 3333333333 
— 3333333333 3333333333 
三 角形 上 部 亮度 9、7、 5 之 间 的 亮度 为 7 的 像 3333333333 3373333333 
素 。 计算 图 像 函 数 在 x = y= 4 处 的 空间 偏 导 3373333333 3397533333 
à 3397533333 3399753333 
数 0Joxr 与 Joy，f = t,, H3 x 3 邻 域 。 计算 在 3399753333 3399975333 
x= y = 4 处 的 时 间 偏 导数 931/31，t = +t,。 用 什 3399975333 3333333333 
、 3333333333 3333333333 

么 方法 合适 ? wip vP 


9.3.5 图 像 流 方程 * 
根据 上 面 的 假设 条 件 ， 推 导出 图 像 流 方 图 9-8 图 像 流 例子 。 一 个 亮度 值 较 大 的 三 角形 ， Mt, 
#1 (image flow equation), ， 并 讨论 如 何 用 图 时 刻 到 be 时刻 向 上 移动 了 一 个 像素 。 背景 亮度 


像 流 方程 计算 图 像 流向 量 。 对 连续 亮度 函数 值 是 3， 而 物体 的 亮度 值 是 


N 
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fix, y, 2) 在 任意 点 (x, y, t) 的 小 邻 域内 进行 泰勒 (Taylor) 级 数 展开 。 
f(x + Ax, y + Ay, t + At) = f(x, y,t)+ Fax + Lay + Fat + h.o.t. (9-1) 
注意 公式 (9-1) 是 对 多 变量 函数 的 近似 表达 式 。 如 果 只 有 一 个 变量 则 表示 为 f(x + Ax) = 
flix) + fA HF (x, y, t) 附近 的 小 邻 域 ， 我们 忽略 公式 (9-1) 中 的 高 阶 项 h.0.t.， 只 考虑 
线性 项 。 下 一 个 重要 的 步骤 参见 图 9-9。 需 要 求 的 图 像 流 向 量 V=[Ax, Ay]， 使 时刻 (x, y) 处 
邻 域 的 亮度 与 5 时 刻 (x+Ax, yt Ay) 处 邻 域 N, 的 亮度 一 致 。 这 个 假设 意味 着 
f(x + Ax,y+Ay,t+At) = f(x, y, t) (9-2) 
根据 公式 (9-1) 与 公式 (9-2)， 并 和 忽略 高 阶 项 ， 可 得 到 图 像 流 方程 如 下 : 
= = PEN af ay = ES Flo tas, Ay] = Vf o [Ax, Ay] (9-3) 
t x y ax dy 
图 像 流 方程 并 不 能 保证 流向 量 V 有 唯一 解 ， 但 提供 了 一 个 线性 约束 方程 。 其 实 ， 也 许 有 多 个 
NN, 邻 域 与 Ni 邻 域 的 亮度 一 致 。 图 9-10 显 示 当 受 限于 以 点 (x,y) 为 中 心 的 一 个 小 邻 域 或 孔径 
(aperture) 时 ， 有 多 个 流向 量 存在 的 可 能 性 。 针 对 以 了 为 中 心 的 小 孔径 ， 点 P 有 可 能 移动 到 R、Q 
或 线段 QR 上 的 其 他 位 置 。 图 9-11 显 示 方 块 目 标 四 条 边缘 的 运动 情况 。 一 般 地 ， 我 们 不 明确 指 
出 物体 的 边缘 ， 但 是 图 9-9 仍 然 适用 于 等 亮度 的 轮廓 曲线 。 图 中 的 边缘 线 应 是 轮廓 的 切线 ， 局 
部 范围 近似 为 轮廓 线 。 


N . 





t ; 
图 9-9 在 V 方 向 上 产生 的 运动 ，# 时 刻 邻 域 N 的 亮 。 图 9-10 RBA, SEW Aiss). (HH 
度 与 5b 时刻 邻 域 N, 的 亮度 一 臻 于 匹配 用 的 邻 域 或 孔径 尺 十 有限， 点 P 有 可 

能 移动 到 R、@ 或 线段 CR 上 的 其 他 位 置 
我 们 可 以 对 图 9-10 做 如 下 解释 。 观 察 
到 点 P 的 变化 ， 这 个 变化 可 用 梯度 -区 Ar 
确定 。 这 个 变化 等 于 空间 梯度 Vf 与 流向 量 
V 的 点 积 。IVI 可 以 很 小 如 等 于 到 新 边缘 的 
垂直 距离 ， 也 可 以 很 大 ， 这 时 流向 量 的 方 
向 与 空间 梯度 方向 很 不 一 致 。 当 一 条 绳索 
被 很 快 向 上 拉 起 ， 水 平方 向 有 些微 小 的 振 ”图 9-11 块 状 目标 向 右 运动 。1 时 刻 未 端 在 边缘 上 的 运动 
动 , 结果 造成 图 像 边缘 的 位 置 变化 很 小 时 ， 向 量 ， 受 到 线性 关系 的 约束 ， 使 向 量 前 端 位 于 ws 
ne ee 时 刻 的 边缘 上 。 在 角 A、B、C、D 处 的 一 般 性 约 
束 产生 了 右 移 (move right) 现象 ， 于 是 由 于 边 
缘 的 连贯 性 使 这 种 右 移 被 推广 到 所 有 的 边缘 点 
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9.3.6 利用 传播 约束 求解 图 像 流 * 

图 像 流 方程 提供 一 种 约束 ， 这 种 约束 对 每 个 像素 位 置 都 适用 。 根 据 一 致 性 假设 ， 邻 近 像 
素 应 具有 相似 的 流向 量 。 图 9-12 显 示 如 何 用 邻近 约束 降低 运动 方向 的 歧义 性 。 图 9-12b 是 对 a 中 
运动 方块 的 角 A 邻 域 的 放大 。 图 像 流 方程 把 点 X 处 的 运动 方向 & 限 制 在 5r/4 与 r4 之 间 ， 把 点 Y 
处 的 运动 方向 9 限制 在 -m/4 与 374 之 间 。 如 果 点 X 与 点 Y 属 于 同一 个 刚性 物体 UX SY AD ETRE 
向 量 就 被 限制 在 上 面 两 个 范围 的 交集 内 ， 即 -m/4 与 /4 之 间 。 

图 9-11 与 图 9-12 强 调 两 点 : 第 一 ， 只 有 在 兴趣 点 即 角 点 处 ， 才 能 用 小 孔径 约束 可 靠 地 计 
算 图 像 流 ; 第 二 ， 在 角 点 处 ， 对 流向 量 的 约束 可 以 推广 到 边缘 位 置 ， 而 如 图 9-12c 所 示 ， 对 于 
离 角 点 比较 远 如 边缘 上 的 点 P 处 ， 可 能 需要 许多 次 迭代 才能 接近 一 个 合适 的 值 。 利 用 随机 像 
素 图 像 进行 光 流 计算 的 实验 做 了 很 多 。 进 一 步 的 研究 表明 ， 这 样 的 图 像 也 许 比 高 度 结构 化 的 
图 像 计 算 起 来 更 加 容易 ， 因 为 它 的 邻 域 更 有 可 能 是 独 有 的 。 二 维 松弛 法 在 第 11 章 进行 讨论 。 
用 微分 方程 求解 图 像 流 的 方法 参见 Horn 与 Schunck 于 1981 年 发 表 的 论文 ， 见 9.6 节 的 参考 文献 
部 分 。 i 





图 9-12 

a) 正方 形 目标 右 移 

b) 角 A 的 放大 图 显示 ， 根 据 两 个 邻近 图 像 流 方程 得 到 的 约束 ， 使 方向 的 歧义 范围 降低 到 r/2 

c) 极端 孔径 问题 ， 长 条 形 目标 沿 长 度 方向 运动 ， 位 于 点 P 的 孔径 及 其 邻近 处 ， 运 动 方 向 的 歧义 值 是 
9.4 计算 运动 点 路 径 

前 面 讨论 了 识别 # 时 刻 图 像 上 的 兴趣 点 ， 并 查找 该 点 在 下 一 帧 即时 刻 图 像 上 对 应 点 的 方 
法 。 如 果 点 周围 的 亮度 邻 域 具有 独特 的 纹理 ， 那 么 我 们 就 能 用 规范 化 交叉 相关 技术 随时 跟踪 
这 一 点 。 另 外 ， 领 域 知 识 也 能 使 图 像 序列 中 的 目标 跟踪 变 得 容易 ， 比 如 跟踪 阅 球 比赛 中 的 桔 
黄色 网 球 ， 或 者 跟踪 工作 站 前 面 的 粉色 人 脸 。 

现在 考虑 一 般 的 情况 ， 即 运动 点 附近 的 纹理 或 颜色 不 是 独 有 的 ， 这 样 就 必须 通过 运动 本 
身 的 特性 得 到 这 些 点 的 轨迹 。 图 9-13 显 示 三 个 目标 物 经 6 个 时 刻 的 光滑 运动 轨迹 。 在 考虑 一 般 
情况 之 前 ， 先 提出 三 个 具体 的 问题 。 第 一 ， 考 虑 装 有 许多 网 球 的 盒子 掉 到 地 上 ， 要 根据 视频 
序列 计算 每 只 球 的 轨迹 ; 第 二 ， 在 流体 中 混入 荧光 粒子 ， 研 究 流体 通过 容器 的 流动 特性 ， 并 
拍摄 粒子 随时 间 的 运动 情况 。 假 设 每 个 粒子 在 图 像 中 看 起 来 是 一 样 的 ; 第 三 ， 计 算 人 们 在 街 
道上 的 行走 路 径 。 人 们 的 穿着 反映 在 图 像 上 也 许 是 上 唯一 的 ， 但 一 些 人 在 图 像 中 具有 类 似 的 外 
观 ， 这 确实 是 很 有 可 能 的 。 


N 
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图 9-13 三 个 目标 O、 人 和信、 口 的 运动 轨迹 。 图 中 显示 了 六 个 时 刻 每 个 且 标 的 位 置 。 
〇 和 人 从 左 向 右 运 动 ， 口 从 右 向 左 运动 

可 以 利用 如 下 针对 三 维 空间 实际 物体 的 一 般 性 假设 : 

(1) 物体 位 置 随时 间 的 变化 是 平稳 的 。 

(2) 物体 运动 速度 随时 间 的 变化 是 平稳 的 ， 包 括 速度 的 大 小 与 方向 。 

(3) 某 个 时 刻 物 体 在 空间 中 只 有 一 个 位 置 。 

(4) 两 个 物体 不 可 能 在 同一 时 刻 占有 同一 个 位 置 。 

前 三 个 假设 对 于 三 维 空间 的 二 维 投影 是 成 立 的 ,平稳 的 三 维 运动 产生 光滑 的 二 维 运动 轨 
迹 。 第 四 个 假设 在 投影 情况 下 就 不 再 成 立 ， 因 为 一 个 物体 会 遮挡 另 一 个 物体 ， 当 只 用 一 台 摄 
像 机 时 就 会 出 现 问题 。 实 验 表 明 ， 根 据 运动 物体 的 图 像 序 列 ， 人 类 能 识别 出 物体 并 能 分 析 它 
的 运动 情况 。 在 Johansson 于 1976 年 做 的 著名 实验 中 ， 让 光线 照射 人 体 的 各 个 部 分 。 当 人 体 静 
止 时 ， 观 察 者 不 能 确定 眼前 的 目标 是 一 个 人 ; 但 当 人 体 运 动 时 ， 观 察 者 能 够 很 容易 地 认识 到 
眼前 的 目标 就 是 一 个 人 。 

下 面 我 们 给 出 Sethi 与 Jain 在 1987 年 设计 的 一 个 算法 ,借助 上 面 的 四 个 假设 ,计算 图 像 序 
列 中 通过 观测 点 的 最 光滑 的 一 组 路 径 。 首 先 给 出 单条 路 径 光滑 度 的 数学 定义 ; 然后 定义 最 光 
滑 的 m 条 路 径 集 ， 因 为 这 组 路 径 的 m 个 光滑 值 之 和 是 最 优 的 ; 最 后 定义 贪 禁 交换 算法 (greedy 
exchange algorithm ) ， 该 算法 在 每 个 时 刻 进行 最 优 的 赋值 分 配 ， 用 迭代 的 方法 把 路 径 m 从 ti 时 
刻 延 伸 到 时 刻 。 

定义 73 MORTEM = 1, 2, … , x， 目 标 ; 在 摄像 机 的 视野 范围 内 ， 则 目标 i 的 图 像 点 

序列 了 =(P; b Pia s Pip ,Pi 就 称 为 的 轨迹 。 

轨迹 上 任意 两 点 之 间 的 差分 向 量 定义 为 : 

Vit = Pitti — Pit (9-4) 


我 们 可 以 根据 接近 或 离开 轨迹 上 点 p; ,的 向 量 差分 ， 来 定义 该 点 的 光滑 值 。 方 向 的 光滑 性 
通过 向 量 的 点 积 来 度量 ,速度 大 小 的 光滑 性 通过 向 量 幅度 的 几何 平均 值 与 平均 幅度 之 比 来 度 
量 。 


V oV 2 AV TY | 
sof art is Jao EE : | 





Iv, lIV IV I+l¥ | (9-5) 


其 中 权 系 数 w 取 值 范围 是 0< w < 1， 结 果 使 得 0< S; ,< 1 (参看 本 节 习 题 )。 注 意 对 于 直线 





二 维 运 动 分 析 





轨迹 ， 所 有 空间 点 的 差分 向 量 是 一 样 的 ， 而 且 公式 (9-5) 的 结果 为 1.0， 这 就 是 最 优 的 点 光滑 
值 。 方 向 或 速度 大 小 的 变化 使 5; ,的 值 变 小 。 假 设 m 个 独立 的 点 是 从 n 帧 图 像 的 每 一 帧 中 抽取 出 
来 的 ， 后 面 将 会 看 到 可 以 放宽 这 个 假设 。 第 一 帧 上 的 点 标记 为 ; = 1, 2,…,m。 问 题 是 如 何 建立 
具有 最 大 总 光滑 值 的 m 条 轨迹 T;。 在 公式 (9-6) 中 ， 总 光滑 度 定义 为 所 有 m 条 路 径 上 所 有 内 部 
点 的 光滑 度 之 和 。 m n-i 

总 光滑 度 T= 六 Si. (9-6) 


i=l t=2 





假设 w = 0.5， 方 向 与 速度 大 小 的 加 权 系数 相同 。(a) 证 明 具 有 单位 边 长 的 规则 六 边 形 ， 
它 的 每 个 顶点 的 光滑 度 是 0.75。(b) 正方 形 顶 点 的 光滑 度 是 多 少 ? 





Vr 2 Va 
AA 


I. (b) 证 明 两 个 正 数 x 与 y»， 其 几何 平均 值 Vxy 不 超过 其 算术 平均 值 (x + y)/2。 并 据 此 证 明 


(a) 利用 柯 西 - 施 瓦 茨 不 等 式 ( 见 第 5 章 ), 证 明 计 算 5; 的 公式 中 的 值 界 于 0 与 1 之 





| 的 值 界 于 0 与 1 之 间 。(c) 证 明 只 要 w 界 于 0 与 1 之 间 ， 则 公式 (9-5) 中 的 5, , 界 于 0 





下 面 两 种 情况 下 ，4 点 轨迹 的 总 光滑 度 是 多 少 ? (a) 沿边 长 为 的 八 边 形 的 四 边 ; 
(b) 沿边 长 为 的 正方 形 的 四 边 。 

算法 9.4 从 n 帧 序列 图 像 计算 m 条 轨迹 。 不 保证 时 间 工 最 小 ， 但 实验 结果 表明 算法 有 很 好 的 效 
有 果 。 首 先 参考 图 9-14 的 简单 例子 ， 直 观 上 对 算法 进行 初步 的 了 解 。 表 9-1 列 出 所 关心 路 径 的 光滑 
度 。 在 第 1 帧 中 可 以 对 点 进行 随机 标号 ,例如 物体 口 ,=1 = T1, 1]， 物 体 〇 = 1 = 712, 1]， 然 后 
把 轨迹 扩展 到 后 面 各 帧 中 的 最 近 点 7T1, 2] = O， 该 点 是 最 近 的 点 ， 用 排除 法 后 7[2， 21=L). 在 
转换 到 实际 轨迹 时 我 们 犯 了 一 个 错误 。 我 们 在 时 刻 + = 3 时 利用 预测 进行 最 近邻 赋值 之 后 ， 再 计 
算 这 两 条 路 径 的 总 光滑 度 。 从 表 9-1 的 前 两 行 可 以 看 出 ， 这 两 条 路 径 的 总 光滑 度 是 0.97 + 0.98 = 
1.95。 如 果 把 赋值 操作 7T1, 2] = 〇 :与 IT2, 2] = 口 ,进行 交换 ， 可 得 到 更 好 的 光滑 值 0.99 + 0.99 = 
1.98。 交 换 之 后 ， 到 := 2 时 的 轨迹 是 ( 口 ,, Oh) MM (Oy, Or). 最 近 点 的 初始 赋值 将 在 时 刻 ! = 
3, 4 时 给 出 最 佳 的 光滑 值 ， 不 需要 交换 赋值 。 但 是 当 ! = 5 时 ， 最 近 点 赋值 将 产生 轨迹 (0> O, 
Us, Os, Os) 和 (Oi, Or, Os, Os 口 ;)。 最 后 两 个 赋值 相交 换 后 ， 在 中 间 的 三 个 轨迹 点 
得 到 的 总 光滑 度 会 提高 ， 从 2.84 + 2.91 = 5.75 提 高 到 2.89 + 2.94 = 5.83, 所 以 图 9-14 显 示 的 最 
后 标号 是 正确 的 。 
算法 9.4 贪 禁 交换 算法 : 输入 各 时 刻 的 二 维 点 集 ， 计 算 光 滑 路 径 
Pli, 4] 保 存 帧 序列 += 1,2,…, n 上 的 二 维 点 ,点 的 标号 为 i = 1, 2,…,m。 
Tli, t], 输出 轨迹 集合 ，m 行 n 列 。 
Tli, t] = k 的 意思 是 ， 目 标 i 被 看 作 是 第 : 帧 中 的 第 x 个 点 。 
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1. 初始 化 : 通过 最 近邻 连接 建立 m 条 完全 路 径 。 
(a) 第 一 帧 : 对 所 有 i, 设置 日 标 标号 T[i, 1] = i; 
(b) 其 他 帧 : ”对 于 1 = 2, 3, on, IETU, A = k, ferh API, t) 
是 离 点 P[TLi, 1-1], 1-1] 最 近 的 点 ， 该 点 还 没有 赋值 。 
2. 交换 循环 : fort:=2 to n-1 
(a) MK ARG, Kk)， 计 算 由 于 TD, 与 T[k, 可 赋值 交换 


带 来 的 光滑 度 的 提高 量 ; 
(b) 进行 交换 ,使 光滑 度 最 大 程度 提高 。 如 果 总 的 光滑 度 不 提高 ， 则 不 
交换 ; 


(c) 如 果 做 了 交换 则 置 位 交换 标志 。 
3. 终止 测试 :如果 上 述 循 环 中 进行 了 交换 ， 则 清 零 交换 标志 ， 重 复 交 换 循环 。 





图 9-14 两 个 目标 的 轨迹 ， 在 前 5 个 位 置 中 ，O 〇 和 品 沿 着 图 像 流 向 量 运动 。 跟 踪 器 可 能 认为 
山 ;继承 的 是 〇 ,， 而 O 〇 有 可 能 是 序列 口 |,， 口 ,， 口 ;， 口 :的 最 后 一 点 


表 9-1 图 9-4 的 路 径 光滑 度 


































































































t=! t=2 t=3 t=4 t=5 Xi BE 
Oi(112 262) (206 185) ©O,(250137) 0.97 
[],(106 175) O,(180 188) (280 185) 0.98 
Oi(112 262) ©,(180188) ©,(250137) 0.99 
[J] (106 175) L_J,(206 185) 3(280 185) 0.99 
©0112 262) ©,(180 188) ©,(250137) ©,(360137) 1.89 
11106 175) (206 185) (280 185) 4(365 156) 1.96 
© (112 262) ©,(180 188) ©3(250137) ©,(360137) 5(482 80) 2.84 
(106 175) (206 185) 3(280 185) (365 156) ©.(478 170) 2.91 
© (122 262) ©,(180 188) ©,(250137) ©,(360137) Os(478 170) 2.89 
11106 175) (206 185) (280 185) (365 156) 5(482 80) 2.94 



























































在 每 次 应 用 光滑 指标 之 前 ， 算 法 9-4 初 始 化 x 个 点 的 m 条 完全 路 径 。 交 换 循 环 的 次 数 是 可 变 
的 ， 目 的 是 通过 交换 两 条 路 径 之 间 的 点 去 提高 光滑 度 。 如 果 在 任意 时 刻 上 通过 交换 使 光滑 度 
有 了 提高 (而且 总 是 最 大 的 提高 )， 那 么 重复 整个 交换 循环 。 总 的 来 说 ， 在 每 一 时 刻 :， 可 能 
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BE (3) 次 交换 。 算 法 至 少 需要 进行 (n-2)(?) 次 运算 ， 每 增加 一 次 交换 循环 就 需要 做 更 多 的 
运算 。 当 超过 1.0m(1-2) 时 ， 光 滑 度 不 可 能 再 提高 ， 因 此 : 
能 提高 光滑 度 的 循环 次 数 是 有 限 的 ， 这 时 就 应 终止 算法 。 
如 果 在 t = 1 帧 的 赋值 是 任意 的 ， 总 共 要 考虑 m”"!' 种 可 
能 的 路 径 ， 这 是 一 个 很 大 的 数目 。 贪 禁 交 换算 法 每 次 只 
交换 两 个 赋值 运算 ， 而 不 考虑 两 个 以 上 的 赋值 运算 ， 因 
此 可 能 得 不 到 全 局 最 小 值 。 可 以 对 算法 9.4 进 行 修改 ， 只 
用 一 帧 或 三 帧 进行 初始 化 ， 并 且 在 得 到 新 的 一 帧 和 抽取 
特征 点 时 算法 是 连续 的 。 如 果 能 得 到 所 有 帧 上 的 所 有 点 ， 
可 在 交换 循环 中 用 前 向 和 后 向 处 理 方法 对 算法 进行 改进 。 图 9-15 接近 和 离开 轨迹 上 点 p [i, 1] 的 
也 可 对 算法 进行 扩展 ， 处 理 在 两 帧 之 间 有 新 点 出 现 与 旧 向 量 
点 消失 的 情况 ， 这 主要 是 由 于 一 个 运动 物体 被 另 一 个 遮挡 所 造成 的 。 在 那些 少 于 mm 个 点 的 图 像 
帧 中 可 以 用 虚假 点 (ghost point) 进行 补充 。 
习题 9.10 E 
下 面 三 个 点 的 集合 是 从 6 帧 视频 图 像 中 抽取 的 ， 并 对 应 于 图 9-13 中 的 数据 。 用 贪 禁 交 换算 
法 确定 最 光滑 的 三 条 轨迹 。 











t=1 t=2 t=3 t=4 t=5 t=6 
(483 270) ~ (155 152) (237 137) (292 128) (383 117) (475 220) 
(107 225) (420 237) (242 156) (358 125) (437 156) (108 108) 
(110 133) (160 175) (370 180) (310 145) (234 112) (462 75) 


BB 
在 下 列 情况 下 ， 你 认为 贫 楚 交换 算法 能 成 功 地 根据 图 像 序列 中 的 点 构造 出 轨迹 吗 ? 请 解 
释 为 什么 。(a) 旋转 木马 视频 中 ， 木 马上 下 运动 。(b) 从 人 行道 拍 取 的 街道 视频 ， 摄 像 机 前 
正好 有 两 辆 汽车 以 35MPH 的 速度 驶 过 ， 两 辆 车 的 运动 方向 相反 。(e) 关于 两 个 台球 发 生 碰撞 ”8 
的 高 速 影片 。 运 动 的 白 球 击 打 静 止 的 红 球 ， 碰 撞 之 后 ， 白 球 静止 ， 而 红 球 得 到 了 白 球 的 所 有 ”|270 
动量 。 
面向 特殊 问题 的 集成 跟踪 
算法 9.4 表 明 只 用 一 般 光 滑 性 约束 所 做 的 工作 。 在 特殊 应 用 中 ， 需 要 更 多 的 信息 以 提高 跟 
踪 的 稳健 性 和 跟踪 速度 。 如 果 m 个 点 所 对 应 的 特征 都 能 够 得 到 ， 在 光滑 性 计算 中 就 可 以 包括 特 
征 匹 配 。 进 一 步 ， 对 :时 刻 及 以 前 的 这 部 分 轨迹 进行 拟 合 ， 可 以 预测 第 + + 1 帧 轨迹 点 的 位 置 ， 
这 可 以 大 大 降低 用 交叉 相关 方法 进行 点 搜索 的 工作 量 。 在 最 近 的 研究 文献 中 可 以 找到 这 些 算 
法 。Maes 等 人 (1996) 通过 计算 手 、 脚 和 头 的 轨迹 来 跟踪 人 的 运动 ， 手 、 脚 和 头 是 运动 人 体 
的 侧面 影像 上 曲率 大 而 突出 的 部 分 。Bakic 和 Stockman (1999) 用 一 台 与 工作 站 相连 的 摄像 机 
跟踪 人 脸 、 眼 和 鼻子 ， 目 的 是 为 了 控制 鼠标 的 光标 。 图 9-16 显 示 的 是 在 当前 帧 中 检测 到 的 特 E 
征 ， 得 出 光标 在 8 x 8 菜单 选择 阵列 中 的 位 置 。 第 二 行 第 三 列 中 的 笑脸 表示 用 户 选 中 的 这 一 项 。 
由 于 系统 集成 了 领域 知识 ， 处 理 速度 可 以 达到 每 秒 15 帧 以 上 。 利 用 人 脸 的 颜色 信息 在 图 像 中 
识别 出 人 脸 ， 利 用 人 脸 的 结构 知识 确定 眼睛 和 鼻子 的 位 置 。 另 外 ， 根 据 眼 与 鼻子 的 轨迹 预测 
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在 下 一 帧 图 像 上 的 什么 地 方 寻找 特征 ， 如 果 在 预测 到 的 邻 域 内 找到 了 特征 ， 就 不 用 作 全 局 性 
人 脸 检 测 了 。 





图 9-16 跟踪 工作 站 用 户 的 眼 与 鼻子 ， 做 到 没有 鼠标 的 情况 下 控制 光标 的 移动 
(图 像 由 Vera Bakic 提 供 ) 

(上 图 ) 在 菜单 中 选择 要 检测 的 人 脸 的 位 姿 

(下 图 ) 人 脸 图 像 序 列 ， 显 示 跟 踪 眼 睛 与 鼻子 的 过 程 

电影 泰坦 尼克 号 中 有 很 多 例子 ， 综 合 利用 计算 机 图 形 学 与 计算 机 视觉 技术 ， 把 实际 图 像 
与 合成 的 图 像 相 结合 。 原 来 是 一 稻 模 型 船 的 图 像 ， 然 后 通过 在 甲板 上 添加 运动 模型 对 图 像 进 
行 增强 。 一 名 女 演员 穿着 20 世 纪 早 期 对 忠 的 古典 裙 装 ， 拍 摄 出 一 系列 关于 她 的 运动 图 像 。 实 
际 服装 上 装 有 许多 小 灯 ， 目 的 是 为 了 方便 检测 运动 序列 中 的 特征 点 ， 然 后 根据 这 些 运动 点 的 
轨迹 ， 修 改 模型 人 与 模型 服装 的 运动 ， 再 把 它们 加 到 模型 船 图 像 中 的 不 同位 置 。 这 部 巨型 电 
影 的 每 一 帧 都 花费 了 计算 机 和 工作 人 员 的 大 量 时 间 ， 所 以 不 是 所 有 的 措施 都 一 定 是 全 自动 的 。 


9.5 检测 视频 中 的 显著 变化 
视频 序列 可 以 记录 几 分 钟 或 几 小 时 的 监视 录像 、 电 视 新 闻 的 不 同 抓拍 镜头 、 完 成 的 记录 
文献 或 电影 等 。 把 视频 序列 分 割 成 子 序列 ， 并 储存 到 数字 图 书馆 ， 人 们 能 够 随意 访问 ， 这 一 
点 变 得 日 益 重 要 。 本 节 讨论 视频 序列 分 解 和 分 析 的 重要 概念 和 方法 。 首 先 要 对 视频 或 其 他 图 
像 序列 中 的 几 方面 变化 进行 定义 。 
“场景 变化 (scene change) 指环 境 的 变化 。 例 如 ， 从 饭店 场景 到 街道 场景 。 希 望 这 种 变 
化 是 整个 背景 的 总 变化 。 一 般 通过 下 面 的 一 种 摄像 特效 ， 摄 取 10 到 15 帧 以 上 的 图 像 ， 制 
造 出 场景 的 变化 效果 。 
“镜头 切换 (shot change) 是 在 同一 场景 中 ， 显 著 改变 摄像 机 的 视点 。 一 般 通过 变换 摄像 
机 实现 这 种 效果 。 如 在 饭店 场景 一 台 摄像 机 拍摄 男 演员 A 正 在 说 话 ， 而 另 一 台 摄像 机 拍 
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摄 桌 子 对 面 的 男 演员 B 的 反应 。 

“摄像 机 扫 视 (camera pan ) ， 摄 像 机 水 平 扫 视 景物 。 如 果 摄 像 机 从 右 向 左 扫 过 ， 物 体 就 
像 是 从 左边 进入 、 穿 过 图 像 到 了 右边 ， 最 后 从 右边 出 去 。 从 静态 景物 全 景 序 列 的 连续 帧 
中 计算 出 的 运动 向 量 ， 方 向 将 仍然 是 从 左 到 右 。 

“摄像 机 变焦 (camera zoom), ， 随 时 间 改 变焦 距 ， 以 放大 某 部 分 景物 的 图 像 或 缩小 景物 的 
图 像 并 包括 更 多 的 周围 背景 。 

“特效 处 理 (Camera effect) ， 利 用 淡 变 、 溶 变 、 控 除 等 效果 把 一 幅 图 像 转 化 成 另 一 幅 图 
Ro Rk (fade out) 是 指 由 原始 图 像 逐渐 变 黑 或 变 白 的 连续 过 程 ， 而 淡 入 (fade in) 
是 指 从 由 黑 或 白 屏 逐 渐变 成 某 视频 图 像 的 连续 过 程 。 通 过 淡出 视频 A 再 淡 入 视频 B ， 可 
以 实现 从 视频 A 到 视频 B 的 转换 。 溶 变 (dissolve) 是 指 经 过 若干 个 图 像 帧 ，A 中 的 像素 
逐渐 变 成 图 像 B 中 的 像素 。 一 种 溶 变 方式 是 对 A 和 B 中 的 像素 进行 加 权 处 理 ， 如 A 中 像素 
的 权 系数 取 (1-tW/T)，B 中 像素 的 权 系数 取 iW/T， 其 中 帧 号 : = 0,…,T。 擦 除 (wipe) 效果 
通过 改变 A 和 B 在 帧 中 显示 的 区 域 大 小 使 B 逐 渐 代 禁 A。 想 像 汽 车 前 面 的 雨刷 ,假设 A 显 
示 在 雨刷 的 一 边 ，B 显 示 在 另 一 边 。 在 两 个 区 域 之 间 使 用 垂直 、 水 平 或 者 对 角 分 界线 实 
现 擦 除 效果 。 或 者 ，B 一 开始 出 现在 一 个 小 圆 区 域内 ， 逐 渐变 大 最 后 占 满 整 帧 范围 。 


写 出 伪 码 算法 ， 用 擦 除法 把 视频 原始 资料 A 渗入 视频 原始 资料 B 中 。 原 始 资料 A 是 图 像 序 
列 A,[r，c]， 原始 资料 B 是 图 像 序列 B[r, cle (a) 假设 擦 除 的 实现 是 ， 从 时 刻 t, 到 时 刻 用 斜率 
为 1 的 对 角 线 ， 在 时 刻 1 从 像素 点 [0, 0] (左上 角 ) 出 发 ， 在 时 刻 结 束 于 像素 点 [M1, N-1]。 
(b) 假设 擦 除 的 实现 是 ， 圆 形 区 域 从 帧 中 心 开始 逐渐 变 大 。 在 时 刻 . 圆 圈 的 半径 是 0， 在 时 刻 
圆圈 的 半径 大 到 与 帧 的 边缘 相 切 。 
9.5.1 视频 序列 分 割 

分 割 的 目的 是 ， 把 一 个 较 长 的 视频 序列 分 割 成 单个 场景 的 子 序列 。 例 如 一 个 30 分 钟 的 电 
视 新 闻 节 目 中 ， 将 有 几 个 10 到 15 秒 的 片断 ， 片 断 中 的 镜头 对 着 新 闻 广 播 员 ， 他 正在 桌子 旁 报 
道 新 闻 ， 而 背景 是 不 变 的 办 公 室 场 景 ， 但 可 能 有 摄像 机 变焦 效果 。 该 片断 之 后 ， 一 般 屏 幕 会 
过 渡 到 其 他 纪实 性 视频 资料 ， 也 许 是 关于 洪涝 的 报道 、 运 动 会 的 精彩 镜头 、 一 次 会 议 实况 或 
者 政府 官员 在 漫步 视察 。 一 般 要 报道 的 事件 包括 若干 个 不 同 的 镜头 ， 它 们 之 间 要 有 过 渡 。 这 
种 过 渡 可 用 于 视频 分 割 ， 根 据 图 像 特征 随时 出 现 的 显著 变化 ， 可 以 检测 出 这 种 过 渡 。 

计算 序列 中 两 帧 图 像 1 与 1 之 间 的 差别 ， 一 种 显而易见 的 方法 是 计算 对 应 点 之 间 的 平均 
差 ， 如 公式 (9-7) 所 示 。 根 据 不 同 的 摄像 特效 ， 时 间 间 隔 A 可 以 是 一 帧 或 者 更 多 帧 。 


MaxRow—1 MaxCol—!1 
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MaxRow x MaxCol 

对 于 基本 稳定 的 拍摄 ， 即 使 摄像 机 轻微 摇晃 或 目标 运动 存在 很 小 的 偏差 ， 公 式 (9-7) 也 
会 产生 比较 大 的 偏差 从 而 误导 我 们 。Kasturi 和 Jain 在 1991 年 提出 的 更 稳健 的 改进 方法 是 ， 把 
图 像 分 割 成 比较 大 的 模块 ， 测 试 是 不 是 多 数 模块 在 两 幅 图 中 基本 上 是 一 样 的 。 公 式 (9-8) 定 
义 的 似 然 比 ， 用 来 估计 对 应 模块 的 亮度 是 否 有 显著 变化 。 设 图 像 中 的 模块 B, 的 亮度 均值 与 方 
差分 别 是 uw 和 vi;， 图 像 , 中 的 模块 8, 的 亮度 均值 与 方差 分 别 是 和 v,。 根 据 公 式 (9-8) 中 的 似 
然 比 对 模块 差 进 行 定义 。 如 果 足 够 多 的 模块 差 为 0%， 则 结果 证 明 两 幅 图 像 基本 上 来 自 同一 个 镜 





dpixel (i, Tia) = (9-7) 
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Keo MR, SARAH AS, WAR wt Siz il FF EA EER, AAS RRL dee SE TK BA 
影响 ， 用 公式 (9-8) 比 用 公式 (9-7) 效果 更 好 。 


2 2 
vı +v: Uj 一 &2 
[2+ (32) | 


U1 U2 
Apbiock( By, Bz) = 1 4 r > 1, 


=O4%r<r 
d(l, h) = bD dplock (Bli, Bai) 


Biieli; By eh 


r = 


两 图 之 差 可 用 他 们 的 直方 图 之 差 表 示 ， 如 第 8 章 中 的 dii(1, CO)。 在 我 们 现在 的 讨论 中 ，/7 相 
当 于 图 像 针 +，Q 相 当 于 图 像 1。64 级 直方 图 足够 了 。 对 于 彩色 视频 帧 ， 在 [0,63] 范 围 的 值 可 通过 
连接 红 绿 蓝 颜色 值 的 高 两 位 得 到 。 直 方 图 比较 比 前 面 的 方法 要 快 ， 而 且 是 场景 一 般 特征 的 更 
好 的 表示 。 由 于 直方 图 总 体 上 避 开 了 空间 一 致 性 检查 ， 当 两 幅 图 像 的 直方 图 相同 而 总 体 空间 
分 布 不 同 ， 或 者 实际 上 是 来 自 两 个 不 同 的 镜头 时 ， 就 会 出 现 错误 结果 。 

图 9-17 显 示 来 自 同一 视频 记录 的 四 帧 图 像 。 上 面 两 帧 发 生 在 场景 切换 之 前 ， 下 面 两 帧 发 
生 在 场景 切换 之 后 。 图 9-18 是 根据 图 9-17 的 前 三 帧 计算 出 的 直方 图 。 左 面 的 两 个 直方 图 类 似 ， 
这 意味 着 对 应 的 两 帧 图 像 可 能 来 自 同一 个 镜头 。 右 面 的 直方 图 与 左面 的 两 个 显著 不 同 ， 说 明 
图 9-17 中 的 第 三 帧 来 自 可 能 不 同 的 镜头 。 





图 9-17 同一 视频 记录 中 的 四 帧 图 像 。 上 面 两 帧 与 下 面 两 帧 之 间 存在 镜头 切换 
(经 Springer-Verlag 人 允许 ，Zhang 等 人 1993 年 再 版 ) 


600 600 
R wR g 四 
< 400 <L 400 2 
X 299 Š 209 & o 
0 : 0 0 
1 31 61 91 121 151 181 211 241 1 31 61 91 121 151 181 211 241 1 31 61 91 121 151 181 211 241 
灰 度 值 灰 度 值 灰 度 值 


图 9-18 图 9-17 前 三 帧 的 直方 图 。 上 面 的 两 直方 图 类 似 ， 它 们 对 应 的 两 帧 图 像 也 类 似 。 下 
面 的 直方 图 与 前 两 个 明显 不 同 ， 表 示 它 对 应 的 图 像 帧 与 前 两 帧 不 同 (经 Springer- 
Verlag 人 允许 ，Zhang 等 人 1993 年 再 版 ) 
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9.5.2 忽略 摄影 特效 

如 果 只 是 由 于 某 种 摄影 特效 ， 如 摄像 机 扫 视 或 者 变焦 ， 引 起 相 邻 两 帧 图 像 具 有 显著 差异 ， 
这 时 我 们 不 想 对 视频 序列 进行 分 割 。9.5.1 节 的 镜头 过 渡 可 用 来 进行 简单 的 运动 分 析 ， 从 而 决 
定 这 些 效 果 是 否 能 够 忽略 。 通 过 计算 运动 向 量 可 检测 出 镜头 的 水 平 扫 视 ， 并 且 确 定 运 动向 量 
是 否 在 某 个 模式 方向 及 幅度 附近 发 生 聚 类 。 对 算法 9.3 的 输出 V 进 行 简单 分 析 就 能 做 到 这 一 点 。 
根据 运动 场 周围 的 运动 矢量 可 检测 出 变焦 
效果 。 周 边 处 的 运动 向 量 之 和 近似 为 0 说 明 
存在 膨胀 或 收缩 的 情况 。 只 用 到 了 运动 场 
的 周边 说 明 膨 胀 中 心 (FOE) 或 者 收缩 中 
(FOC) 不 在 运动 场 的 中 心 附近 。 假 设 
运动 向 量 是 利用 MPEG 算 法 中 的 块 匹配 技 
术 算 出 的 ， 那么 由 TL 和 ,确定 的 运动 场 的 最 
上 和 最 下 块 中 具有 运动 向 量 。 上 下 相对 的 oio 检测 摄像 机 变焦 的 启发 式 方法 ， 通 过 比较 运 





两 运动 向 量 的 垂直 分 量 之 差 ， 要 大 于 这 两 动 场 周边 处 的 运动 向 量 。 两 上 下 相对 的 运动 
个 运动 向 量 的 任何 一 个 ， 如 图 9-19 所 示 。 向 量 的 垂直 分 量 之 差 ， 要 大 于 这 两 个 运动 向 
对 于 运动 向 量 的 水 平分 量 也 有 类 似 的 关系 。 量 的 任何 一 个 ， 即 vvl>max{lvil, vl}。 
利用 这 些 启发 性 的 方法 ， 就 能 够 合理 地 检 同样 ， 对 于 水 平方 向 的 相对 运动 向 量 有 lw;.- 
测 出 膨胀 或 收缩 效果 。 然 而 ， 根 据 块 匹配 vel>max{lvad, lvad}。 这 种 关系 对 膨胀 (Ze ) 
a ms 及 收缩 ( 右 ) 都 成 立 

得 到 的 运动 场 的 质量 却 有 所 下 降 ， 因 为 随 

着 变焦 速度 加 快 比例 尺度 会 发 生变 化 。 


获得 同一 场景 视频 的 前 后 两 帧 图 像 。(a) 计算 平均 像素 差 ， 定 义 见 公式 (9-7)。(b) 把 
图 像 分 成 2 x 2 = 4 的 模块 ， 计 算 模块 差 之 和 ， 定义 见 公式 (9-8). 
9.5.3 存储 视频 子 序列 

一 旦 把 一 个 较 长 的 视频 序列 分 割 成 有 意义 的 子 序 列 ， 就 可 以 把 这 些 子 序列 存储 在 视频 库 
中 以 供 查询 和 检索 。 访 问 视 频 库 可 以 用 第 8 章 讨论 的 一 些 方法 。 可 用 第 8 章 介绍 的 通过 识别 和 
利用 关键 帧 (key frame) 访问 数据 库 。 将 来 我 们 可 能 会 更 进一步 ， 如 进行 自动 运动 分 析 ， 并 
进行 图 符 行 为 标记 如 running、fighting 和 debating。 为 了 标记 著名 人 士 ， 需 要 进行 人 脸 识 别 : 
或 者 进行 一 般 的 目标 识别 ,提供 标记 如 horse、house。 与 静态 图 像 相 比 , 视频 包含 许多 帧 图 像 ， 
尽管 这 意味 着 计算 负担 很 重 ， 但 运动 分 析 所 提供 的 信息 提高 了 把 目标 从 背景 分 离 的 能 力 ， 以 
及 对 目标 进行 分 类 的 能 力 。 


考虑 本 章 前 面 讨 论 的 应 用 ， 即 根据 比赛 的 视频 序列 对 网 球 比赛 进行 分 析 。(a) 程序 应 输 
出 什么 样 的 行为 和 事件 ? (b) 程序 应 输出 什么 定量 数据 ? 
9.6 参考 文献 

跟踪 网 球 运 动员 及 网 球 的 例子 ， 主 要 基于 贝尔 实验 室 Pingali、Jean 和 Carlbom 在 1998 年 的 
工作 。Freeman 等 人 于 1998 年 发 表 的 论文 中 ， 描 述 了 几 个 实验 结果 ， 把 计算 机 视觉 技术 与 已 有 
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的 应 用 技术 相 结合 ， 设 计 出 一 种 手势 接口 。 文 中 还 给 出 一 种 快速 运动 估计 算法 。Kage 等 人 
(1999) 详细 介绍 了 快速 运动 估计 算法 ， 并 对 游戏 接口 进行 了 详细 地 讨论 。 视 频 分 解 与 索引 内 
容 是 根据 Zhang 等 人 《〈1993) 以 及 Smolier、Zhang (1996) 的 工作 。 根 据 平凡 点 的 图 像 帧 计 
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Maes 等 人 (1996)、Darrell 等 人 (1998)、Bakic 与 Stockman (1999) 集中 讨论 特殊 问题 的 有 
关 知 识 ,目的 是 为 了 加 速 计算 过 程 并 使 其 更 加 稳健 。Ayers 与 Shah (1998) 的 工作 显示 如 何 根 
据 与 监视 应 用 相关 的 语义 对 运动 与 变化 进行 解释 。 
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图 像 分 割 是 指 把 一 幅 图 像 分 成 不 同 的 区 域 。 许 多 分 割 任务 的 目标 是 让 图 像 区 域 代表 一 定 
的 含义 ， 如 卫星 图 像 中 表示 庄稼 、 郊 外 和 森林 的 区 域 。 在 图 像 分 析 任务 中 ， 区 域 可 以 用 组 成 
区 域 的 边界 像素 集 表 示 ， 例 如 3D 工 业 目 标 图 像 中 的 直线 段 或 圆 弧 段 。 区 域 也 可 定义 为 既 有 边 
界 又 有 特殊 形状 的 像素 集合 ， 如 贺 、 椭 圆 或 多 边 形 。 当 兴趣 区 域 不 覆盖 整 幅 图 像 时 ， 我 们 仍 
然 可 以 将 图 像 分 成 兴趣 前 景区 域 和 可 忽略 的 背景 区 域 。 

分 割 有 两 个 目的 。 第 一 个 目的 是 将 图 像 分 割 成 部 分 以 便 进一步 分 析 。 在 简单 情况 下 ， 对 
环境 进行 控制 ， 使 分 割 过 程 能 可 靠 地 抽取 出 要 进行 分 析 的 部 分 。 例 如 ， 在 第 6 章 关 于 颜色 的 讨 

论 中 ， 提 出 了 一 种 从 彩色 视频 图 像 分 割 人 脸 的 算法 。 如 果 人 物 的 衣服 及 房间 的 背景 与 人 脸 具 
AT HSMESEITE. 这 个 分 割 是 可 靠 的 。 在 复杂 情况 下 ， pigs ot Na ta 
整 的 公路 网 络 ， 分 割 问题 就 会 非常 困难 ， 可 能 要 应 用 大 量 领域 方面 的 知识 

分 割 的 第 二 个 目的 是 改变 图 像 的 表示 
方法 。 必 须 对 图 像 像素 进行 组 织 ， 形 成 更 
高 级 的 表示 单元 ， 使 这 种 高 级 表示 单元 比 
像素 表示 更 有 意义 ,或 者 更 有 利于 进一步 
的 分 析 。 关 键 问 题 是 能 否 找到 一 种 通用 的 
自 下 而 上 的 分 割 方法 ， 适 应 不 同 领域 而 又 nih 
不 需要 任何 专门 的 领域 知识 。 本 章 讨 论 的 图 10-1 参见 彩 图 10-1 
分 割 方法 可 以 用 于 许多 不 同 的 领域 。 下 面 ae) DERS by 县 
将 讨论 基于 区 域 的 表示 单元 和 基于 曲线 的 ( 右 ) the a 每 个 区 域 是 颜色 相似 的 连通 像 
表示 单元 。 一 种 分 割 系 统 适用 于 所 有 问题 ， pas 
这 样 的 前 景 看 起 来 非常 黯淡 。 经 验 表 明 ， 实际 利用 机 器 视觉 时 必须 能 够 从 众多 方法 中 进行 选择 ， 
或 者 根据 具体 的 领域 知识 确定 一 种 方案 。 

本 章 讨论 几 种 分 割 算法 ， 包 括 经 典 的 
区 域 增长 法 、 聚 类 算法 ， 以 及 直线 和 圆 弧 
检测 法 。 图 10-1 显 示 将 一 幅 橄榄 球 比赛 的 彩 
色 图 像 分 割 成 具有 近似 颜色 的 区 域 。 图 10-2 
是 从 玩具 积木 图 像 中 抽取 直线 段 的 结果 。 
注意 这 两 种 情况 的 分 割 结果 ， 以 人 类 的 标 
准 来 看 离 完 美 相 差 很 远 ， 但 是 ， 这 些 分 割 ie ise 
结果 可 以 作为 更 高 层 自动 处 理 的 有 效 输入 ， Pe se 
例如 ， 可 以 根据 衣服 的 数字 识别 橄 槛 球 运 (Ai) 用 ORT (Object Recognition Toolkit) 工具 包 抽取 出 
动员 ， 或 者 根据 线段 识别 要 装配 的 零件 。 的 线段 图 像 


10.1 区 域 分 割 
“图像 分 割 后 的 区 域 应 在 某 些 特征 方面 表现 得 一 致 和 同 质 ， 如 灰 度 、 颜 色 或 纹理 。 











280 


N 





208 #10 # 





“区 域内 部 分 布 单一 ， 不 能 有 太 多 的 孔 。 

“对 于 区 域内 部 的 同一 特征 ， 相 邻 区 域 间 应 具有 明显 的 差别 。 

“分割 边 界 应 该 是 光滑 不 粗糙 ， 且 空间 位 置 准确 。 

间 时 满足 所 有 这 些 要 求 是 有 困难 的 ， 因 为 严格 一 致 和 同 质 的 区 域 一 般 都 充满 了 孔 且 边界 
粗糙 。 坚 持 相 邻 区 域 的 值 有 明显 差别 的 话 ， 会 导致 区 域 融合 到 一 起 并 且 使 边界 丢失 。 另 外 ， 
人 类 感觉 均匀 的 区 域 ， 在 分 割 系统 获得 的 低层 特征 上 未 必 是 均匀 的 ， 这 时 可 能 需要 利用 高 层 
的 知识 。 本 章 要 讨论 的 分 割 算 法 ， 可 用 来 分 割 各 种 图 像 ， 并 为 各 种 高 层 分 析 服 务 。 

10.1.1 BAA 

在 模式 识别 中 ， 聚 类 是 将 模式 向 量 的 集合 分 成 多 个 子 集 的 过 程 ， 这 些 子 集 称 为 聚 类 
(cluster)。 例 如 ， 如 果 模 式 向 量 是 实数 对 ， 如 图 10-3 所 示 的 7 
点 ， 聚 类 则 是 寻找 在 二 维 欧 氏 空间 中 互相 接近 的 点 的 子 集 。 





聚 类 方法 有 很 多 。 我 们 来 讨论 图 像 分 割 中 用 到 的 几 种 聚 s% oe" 
类 算法 ， 包 括 经 典 聚 类 算法 、 简 单 的 直方 图 算法 、Ohlander 8 
的 递归 直方 图 算法 以 及 Shi 的 图 分 割 技术 。 oo 

1. 经 典 聚 类 算法 of 


x 


聚 类 的 一 般 问题 是 将 向 量 集 分 成 儿 组 ， 每 组 具有 相似 的 一 
值 。 在 图 像 分 析 中 ， 向 量 代表 一 些 像素 ， 有 时 代表 像素 周围 “图 103 全 的 二 全 全 机 分 
的 邻 域 。 这 些 向 量 的 元 素 包括 : 到 种 音义 Linen 


某 种 意义 上 相 接 近 的 点 组 
(1) 强度 值 成 。 图 中 的 几 种 类 别 用 填 
(2) RGB 值 及 由 此 推出 的 颜色 特征 充 模 式 不 同 的 圆圈 表示 
(3) 计算 得 到 的 特征 
(4) 纹理 度量 值 


任何 与 像素 相关 的 特征 都 可 用 来 对 像素 分 组 。 基 于 这 些 度量 空间 值 ， 把 像素 分 门 别 类 ， 
就 很 容易 利用 第 3 章 的 连通 成 分 标记 找到 连通 区 域 。 
传统 聚 类 中 ， 有 天 个 类 别 C， C, trey Ck 均值 分 别 为 mi， M, © , Mro 最 小 二 来 误差 测度 


(least square error measure) 定义 为 


K 
D= S00 ix- ml? 


k=1 Xi EC 


上 式 检 验 数据 与 指定 类 别 的 接近 程度 。 最 小 二 乘 聚 类 过 程 ， 考 虑 所 有 天 个 类 别 的 可 能 划分 ， 选 
择 使 D 最 小 的 那 一 种 。 该 方法 从 计算 量 上 来 说 是 不 可 行 的 ， 一 般 采 用 近似 的 方法 。 重 要 的 问题 
为 是 否 预先 知道 K。 许 多 算法 都 假设 参数 K 由 用 户 提 供 ， 另 有 一 些 算法 则 试图 根据 一 些 指标 找 
到 最 佳 的 KE， 例如 保持 每 类 方差 小 于 某 个 指定 的 数值 。 

2. 迭代 K- 均 值 聚 类 

K-3) 4% (K-means) 算法 是 一 种 简单 的 迭代 殿 山 算法， 描述 如 下 。 

算法 10.1 对 一 组 n 维 向 量 进行 K- 均 值 聚 类 

1. 令 ic( 和 迭代 次 数 ) 为 1; 

2. 随机 选取 K 个 均值 m1(1), m2(1),…,mx(1); 
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3. HEA AEDA, mfic)), k= 1,…,K， 将 x 分 配给 具有 最 近 均 值 的 聚 类 CC; 
4. ic 加 1， 更 新 均值 得 到 新 的 集合 mi(ic), mo(ic),…,mx(ic); 
5. 重复 第 3 步 到 第 4 步 ， 直 到 对 所 有 的 E， 都 有 Cu(ic) = Chic + 1). 


该 算法 可 以 保证 能 终止 ， 但 不 能 保证 最 小 二 乘 意义 上 的 全 局 最 优 。 对 第 2 步 进行 修改 ， 把 
向量 集 随 机 分 成 K 个 聚 类 ， 并 计算 它们 的 均值 。 第 5 步 的 终止 条 件 修改 为 ， 当 迭代 中 改变 聚 类 
的 向 量 百分比 非常 小 时 终止 。 图 10-4 显 示 的 是 ， 对 图 10-1 中 的 橄榄 球 图 像 在 RGB 空间 应 用 天- 
均值 聚 类 算法 的 结果 












图 10-4 参见 彩 图 10-4 
(E) 橄榄 球 图 像 
(H) 利用 K 均 值 聚 类 ， 得 到 K= 6 种 不 同 灰 度 的 聚 类 结果 。6 个 聚 类 对 应 6 种 颜色 : 深 绿色 、 绿 色 、 深 蓝 色 、 白 色 、 
银色 和 黑色 

3. isodata 聚 类 

Isodata 聚 类 (isodata clustering) 是 另 一 种 迭代 算法 ， 它 利用 了 拆 分 合并 的 技术 。 假 设 有 
K* RKC, C,, … ,Ckx， 均 值 分 别 为 mm, m, … , mx， 设 > ERRI EEE (定义 如 下 )。 
如 果 x 是 如 下 形式 的 向 量 : 


X; = [Vi, V2, *… , V,] 
那么 均值 向 量 m 表 示 为 : 
M, = [Mp mx, , M,,] 
了 >， 定义 如 下 : 
Gi Tig sss Gia 
fyi a Aaa ae (10-1) 
Cin, On se Onn 


Epo, = ga 是 向 量 的 第 ; 企 元 素 w 的 方差 cy = pyaiaG， 是 向 量 的 第 ;个 元 素 和 第 /个 元 素 的 协 方差 。 
(pu 是 第 让 元 素 和 第 个 元素 的 相关 系数 ，o; 是 第 i 个 元 素 的 标准 差 ，G 是 第 个 元 素 的 标准 差 。) 

图 10-5 表 示 的 是 ， 对 图 10-1 中 橄榄 球 图 像 在 RGB 空 间 应 用 isodata 附 类 算法 (由 算法 10.2 描 
R) 的 结果 。 聚 类 图 像 是 连通 成 分 标记 过 程 的 输入 ， 产 生 如 图 10-1 所 示 的 分 割 结果 。isodata 
聚 类 的 闪 值 r 设 为 RGB 颜色 空间 立方 体 边 长 的 10%。 


N 
N 


N 
W 
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图 10-5 mem10. 5 
(E) 橄榄 球 图 像 
(Ai) 利用 isodata 聚 类 ， 得 到 有 = 5 种 不 同 灰 度 的 聚 类 结果 。5 个 聚 类 对 应 5 种 颜色 : 绿色 、 深 蓝 色 、 白 色 、 银 色 和 黑色 
算法 10.2 对 一 组 n 维 向 量 进行 isodata 聚 类 
1. 将 x 分 配 到 使 下 式 最 小 的 聚 类 I 中 
Dy = [x; — mi] Dp '[x; — m]. 
2. 如 果 下 式 成 立 ， 合 并 聚 类 i 
Imi—mj|l < Ty 
Hp ty EDANE. 
3. 如 果 > ,的 最 天 特征 值 大 于 到 ， 则 拆 分 聚 类 
4. 如 果 对 于 每 个 聚 类 请 
|m;(t) — mi(t + 1)| < € 
或 者 如 果 达 到 最 大 过 代 次 数 ， 则 停止 迭代 。 
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at FRERE., isodata 算 法 的 结果 比 K- 均 值 算法 的 结果 更 好 ， 因 为 它 正确 地 将 图 像 顶 
部 的 深 绿 区 域 与 接近 底部 的 深 绿 区 域 分 成 一 类 。 思考 为 什么 isodata 算 法 的 性 能 能 够 优 于 K- 均 
值 算法 ? 

4. 简单 直方 图 聚 类 

迭代 分 割 重组 方案 需要 多 次 遍历 图 像 数 据 ， 而 直方 图 方法 仅 遍 历 图 像 数 据 一 次 ， 因 此 在 
度量 空间 聚 类 技术 中 是 一 种 耗 时 最 少 的 算法 。 

直方 图 模式 搜索 (Histogram mode seeking) 是 一 种 度量 空间 聚 类 过 程 ， 其 中 假设 图 像 中 
的 同类 目标 是 度量 空间 ( 即 直方 图 ) 中 的 聚 类 。 将 聚 类 映射 回 图 像 区 域 就 可 实现 图 像 分 割 ， 
其 中 聚 类 标号 的 最 大 连通 成 分 构成 图 像 区 域 。 对 于 灰 度 图 像 ， 首先 确定 直方 图 的 波 谷 ， 谷 与 
谷 之 间 的 间隔 就 是 各 个 聚 类 ， 这 样 就 实现 了 度量 空间 的 聚 类 。 像素 值 属 于 第 ;个 间隔 的 像素 用 
下 标 i 进 行 标记 ， 其 所 属 分 区 是 所 有 像素 标记 为 的 连通 成 分 之 一 。 第 3 章 讨论 的 自动 阔 值 化 技 
术 ， 是 针对 双 模 式 直方 图 的 模式 搜索 实例 。 : 

灰 度 图 像 一 般 具 有 多 模式 的 直方 图 ， 这 样 任何 自动 阔 值 化 技术 ， 都 必须 寻找 图 像 中 的 波 
峰 以 及 将 波峰 分 开 的 波 谷 。 这 个 任务 说 起 来 容易 做 起 来 难 。 图 10- -6 是 积木 灰 度 图 像 的 直方 图 。 
简单 的 波 谷 搜索 算法 ， 可 能 把 该 直方 图 判断 为 双 模 式 ， 并 在 39 和 79 之 间 的 某 个 地 方 取 一 个 阔 
值 。 利 用 试 错 阔 值 选择 法 则 产生 出 3 个 阔 值 ， 得 到 图 10- -7 所 示 的 4 幅 阔 值 化 图 像 ， 它 们 表示 出 











图 像 中 有 意义 的 区 域 ， 于 是 就 提出 了 面向 知 
TR 484 WJ 18. 4U ( knowledge-directed thresholding ) 
RA, HARM SRAAAK. VRSK 
域 的 质量 /有 效 性 有 关 。 


直方 图 模式 搜索 
编写 程序 ， 确 定 多 模式 直方 图 的 模式 。 
首先 利用 第 3 章 的 Otsu 方 法 将 直方 图 分 成 两 
部 分 ， 然 后 如 果 可 能 ， 将 每 部 分 再 分 成 两 部 
分 。 分 别 用 灰 度 图 像 和 彩色 图 像 进行 测试 。 
5. Ohlander 递 归 直 方 图 聚 类 
Ohlander 等 人 (1978) 用 递归 的 方式 对 
直方 图 聚 类 思想 进行 了 改进 。 首 先 对 整 幅 图 
执行 直方 图 模式 搜索 ， 然 后 再 对 所 得 聚 类 的 
每 块 区 域 进行 模式 搜索 ， 直 到 得 到 的 区 域 无 
法 做 进一步 分 解 为 止 。 一 开始 他 们 定义 一 个 
模板 ， 和 覆盖 图 像 中 的 所 有 像素 。 给 定 任意 模 
te, 计算 图 像 上 被 覆盖 区 域 的 直方 图 。 对 该 
直方 图 应 用 度量 空间 聚 类 技术 ， 生 成 一 组 聚 
类 。 然 后 对 图 像 中 的 像素 进行 聚 类 标注 。 如 
果 只 有 一 个 度量 空间 聚 类 ， 就 终止 当前 模板 。 
如 果 不 止 一 个 聚 类 ， 就 对 每 个 聚 类 进行 连通 
成 分 标记 运算 ， 对 应 每 个 聚 类 标号 会 产生 几 
个 连通 区 域 。 用 每 个 连通 成 分 生成 一 个 新 模 
板 ， 新 模板 放 在 模板 栈 中 。 模 板 栈 中 的 模板 
表示 需要 进一步 分 割 的 区 域 。 在 迭代 过 程 中 ， 
栈 中 的 下 一 个 模板 覆盖 要 进行 直方 图 运算 的 
像素 。 对 每 个 新 模板 重复 聚 类 直到 栈 空 为 止 。 
图 10-8 显 示 这 个 聚 类 过 程 ， 我 们 称 之 为 面向 
直方 图 的 空间 递归 聚 类 。 
对 于 一 般 的 彩色 图 像 ，Ohta、Kanade 和 
Sakai (1980) 建议 不 要 直接 对 红 、 绿 、 蓝 
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图 10-7 根据 积木 图 像 的 直方 图 , ATENE, 
得 到 4 幅 阔 值 化 图 像 


(RGB ) 颜色 变量 计算 直方 图 ， 而 应 该 先进 行 变 换 ， 该 变换 接近 于 Karhunen-Loeve ( 主 成 分 ) 
变换 ， 再 计算 各 变量 的 直方 图 。 其 中 变换 方式 为 (R + G + B)/3、 (R-B)/2 和 (2G-R-B)/4。 


6. Shi 的 图 分 割 技术 * 


Ohlander/Ohta 算法 ， 对 于 包含 人 工 目标 和 单 色 区 域 的 简单 颜色 场景 效果 不 错 ， 但 对 于 复 
杂 的 自然 场景 使 用 效果 则 不 尽 人 意 ， 因 为 这 类 图 像 中 带 纹理 的 部 分 存在 大 量 的 小 块 区 域 。Shi 
和 Malik (1997) 提出 一 种 分 割 方法 ， 利 用 颜色 、 纹 理 或 者 结合 使 用 颜色 和 纹理 及 其 他 特性 进 
行 分 割 。 他 们 将 分 割 问题 形式 化 为 图 分 割 问题 ， 并 提出 一 种 新 的 图 分 割 方法 ， 该 方法 将 问题 


化 解 为 求 如 下 特征 向 量 和 特征 值 的 问题 。 
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当前 模板 计算 被 覆盖 图 像 


一 个 聚 类 。 终 止 
当前 模板 ， 弹 出 





图 10-8 面向 直方 图 的 空间 递归 聚 类 。 原 始 图 像 有 4 个 区 域 : 草地 、 天 空 和 两 棵 树 。 
当前 模板 (左上 角 所 示 ) 识别 出 包含 天 空 和 树 的 区 域 。 对 它 的 直方 图 聚 类 
产生 颜色 空间 的 两 个 聚 类 : 一 个 是 天 空 ， 一 个 是 树 。 天 空 聚 类 成 一 个 连通 
成 分 ， 树 聚 类 成 两 个 连通 成 分 。 每 个 连通 成 分 成 为 新 的 模板 ， 被 压 人 模板 
栈 中 以 便 进一步 地 分 制 | 
设 G = (V, E) 是 一 个 图 ， 它 的 节点 是 度量 空间 中 的 点 ， 它 的 每 条 边 都 有 一 个 权 值 w(i, j), 
表示 布点 评 的 相似 度 。 分 割 的 目标 是 将 顶点 划分 成 不 相交 的 集合 Vi, Va … ,V,,， 这 样 使 得 集 
合 内 的 相似 度 较 高 ， 而 集合 间 的 相似 度 较 低 。 
AIG = (V, E) 可 被 分 成 两 个 不 相交 的 图 ， 其 节点 集合 分 别 记 为 4 和 B， 方 法 是 去 掉 4 中 节点 
到 8 中 节点 之 间 的 连接 边 。 两 个 集合 4 和 B 之 间 的 不 相似 程度 ， 可 用 去 掉 边 的 权 值 之 和 来 表示 ， 
这 个 总 权 值 称 为 切 痕 (cut). 
cut(A,B)= 》 w(u,v) (10-2) 
ueA,veB 
把 分 割 问题 形式 化 的 一 种 方法 ， 是 寻找 图 中 的 最 小 切 痕 (minimum cut)， 不 断 重复 这 个 
步骤 直到 区 域 足够 一 致 。 但 是 最 小 切 痕 准则 倾向 于 分 割 成 较 小 的 孤立 节点 的 集合 ， 这 在 寻找 
相同 颜色 或 纹理 的 大 块 区 域 时 没有 作用 。Shi 根 据 cut(4，B) 的 定义 提出 了 规范 化 切 痕 
(normalized cut, Ncut) ，A 和 整个 顶点 集合 V 的 关联 度 (association ) 定义 为 : 
asso(A,V)= 》 w(u,t) 


ucA,teV 


(10-3) 


则 规范 化 切 痕 定 义 为 : 
cut(A, B) cut(A, B) 


Neul(A,. Bj eee? SM BY 
ee Gaede) asso(B, V) 


(10-4) 


根据 这 个 定义 ， 分 割 出 较 小 孤立 点 集 的 切 痕 将 不 具有 较 小 的 规范 化 切 痕 值 ， 使 规范 化 切 
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痕 值 较 小 的 划分 在 图 像 分 割 中 更 加 实用 。 另 外 ， 总 规范 化 关联 度 (normalized association) H 
下 式 给 出 : 
_ asso(A, A) asso(B, B) 
Nasso(A, B) = asso(A, V) 十 asso(B, V) (10-5) 
上 式 表 示 给 定 集合 内 的 节点 之 间 相 连接 的 紧密 程度 。 它 与 规范 化 切 痕 具 有 如 下 关系 : 
Neut(A, B) = 2 ~ Nasso(A, B) (10-6) 


在 分 割 过 程 中 可 以 根据 需要 使 用 上 述 定义 中 的 任何 一 个 。 

给 出 规范 化 切 痕 和 总 规范 化 关联 度 的 定义 ， 还 需要 通过 分 割 像素 集合 实现 对 图 像 的 分 割 
计算 。Shi 的 分 割 过 程 参 见 算法 10.3。 

Shi 利 用 该 算法 对 图 像 进行 分 割 ， 分 别 基 于 图 像 亮度 、 颜 色 和 纹理 信息 。 连 接 边 的 权 值 
w (i, j) HMA: 
-EXO-XV)lle 


a ZIE- FU e 
w(i, j) =e or * 


1 TIXO- Xe <r (10-7) 
其 中 
"XGO) 是 节点 i 的 空间 位 置 。 
Fi 是 基于 亮度 、 颜 色 和 纹理 信息 的 特征 向 量 ， 定 义 如 下 : 
FG) = 1(i)， 图 像 亮 度 值 ， 用 于 分 割 亮度 图 像 。 
Fl) = [v, v - s - sin(h), v + s > cos(h)|(i), 其 中 h、s 和 v 是 HSV 值 ， 用 于 颜色 分 割 。 
Fi) = [M k fl,…,xf,1](i)，、 其 中 f 是 在 不 同 尺度 和 方向 上 的 高 斯 滤波 器 的 二 次 差分 
(difference of difference of Gaussian, DOOG), ， 用 于 纹理 分 割 。 
广 意 对 大 于 预定 像素 数 r 的 节点 对 Ij， 权 值 w(i, j) 设 为 0。 
算法 10.3 利 用 颜色 和 纹理 信息 能 够 得 到 很 好 的 图 像 分 割 结果 。 图 10-9 显 示 该 算法 对 自然 图 
像 的 分 割 效 果 。 虽 然 分 割 结 果 很 好 ， 但 算法 过 于 复杂 ， 对 实时 系统 不 适用 。 
算法 10.3 Shi 的 聚 类 过 程 。 图 的 节点 表示 像素 ， 图 的 边 表示 像素 对 之 间 的 相似 程度 
1. 建立 权 连 接 图 G = (V, E)， 其 节点 集 V 是 图 像 像素 的 集合 ， 边 集 合 E 是 权 值 为 w(i, j) 
的 一 组 边 的 集合 ，w(i, 有 ) 表 示 从 节点 i 到 j 之 间 的 边 连接 权 ， 通过 该 权 值 计算 ;的 度量 空 
间 向 量 与 ;的 度量 空间 向 量 之 间 的 相似 度 。N 表 示 节 点 集合 V 的 大 小 。 定 义 向 量 d， 其 
分 量 d(i) 如 下 





di) = 3° wi, j) (10-8) 
j 


这 样 d(i) 表 示 从 节点 i 到 所 有 其 他 节点 的 总 连接 权 。 设 D 是 一 个 N x N 的 对 角 和 矩阵 ， 其 对 
角 向 量 为 4。 设 W 是 一 个 N x N 的 对 称 矩阵 ，WCG j) = wli， De 
2. 设 x 是 一 个 向 量 ， 其 元 素 定义 为 
1 žnode i 在 A 中 
y= 人 2 其 他 (10-9) 
设 ?是 对 x 的 连续 有 逼近， 定义 为 
> 


x20 di 
ye +t- Ss 7d — Xx) (10-10) 


xi<0 t 
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求 下 列 和 矩阵 方 程 的 特征 向 量 > 和 特征 值 4 


(D 一 W)y= 和 Dy (10-11) 
3. 利用 第 二 小 的 特征 值 对 应 的 特征 向 量 将 图 分 成 两 部 分 ， 找 到 使 得 规范 化 切 痕 最 小 
的 划分 点 8。 
4. 通过 检查 切 痕 的 稳定 性 并 保证 规范 化 切 痕 低 于 预定 的 闪 值 ， 决 定 是 否 需要 对 当前 
的 划分 结果 做 进一步 的 分 割 。 
5. 如 果 必 要 ， 对 分 割 后 的 部 分 再 次 进行 划分 。 


f) 
图 10-9 a 是 原始 灰 度 图 像 。 用 Shi 的 分 割 方法 得 到 区 域 图 像 b ~ f。 在 结果 图 b 中 ， 
选择 的 区 域 是 深 色 背景 区 域 ， 用 黑色 表示 。 在 其 他 结果 图 中 ， 选 择 的 区 
域 用 原来 的 灰 度 值 表 示 ， 其 余部 分 用 黑色 (由 Jianbo Shi 提供 ) 
10.1.2 区 域 增长 
与 划分 图 像 不 同 ， 区 域 增 长 (region grower) 从 图 像 某 个 位 置 (通常 是 左上 角 ) 开始 ， 并 
使 每 块 区 域 变 大 ， 直 到 被 比较 的 像素 与 区 域 像素 具有 显著 差异 为 止 。 一 般 通 过 用 统计 检验 来 
决定 是 否 具 有 显著 差异 。Haralick 与 Shapiro (1985) 提出 下 面 的 区 域 增长 算法 ， 称 为 Haralick 
区 域 增长 算法 。 该 算法 假设 区 域 是 具有 相同 群体 均值 和 方差 的 连通 像素 集合 。 
设 某 像素 的 亮度 值 为 J， 其 邻 域 用 R 表 示 ， 邻 域内 包含 N 个 像素 。 定 义 区 域 均值 fn 散 度 5 为 : 


wd 
Y= à lhd (10-12) 
[rcjeR 
以 及 
$= $ Ur cl- X’. (10-13) 


[r,c]ER 


假设 R 中 的 所 有 像素 与 测试 像素 ?是 相互 独立 的 ， 且 具有 相同 的 分 布 态 ， 下 面 的 统计 量 服 
从 Tv-! 分 布 。 





: [w= ow 


(WED (y 一 m?s] i (10-14) 


日。 Shi 认 为 广义 特征 系统 的 第 二 最 小 特征 向 量 是 规范 化 切 痕 问题 的 实 值 解 。 
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如 果 7 足 够 小 ，y 就 加 入 到 区 域 R， 利 用 对 均值 和 散 度 进行 更 新 。 新 的 均值 和 散 度 如 下 : 
Xnew 二 (NX oia + y)/(N + 1) (10-15) 
以 及 
Soew < Sha + O — Xnew)? + N (Znew — Xow)’. (10-16) 

如 果 T 过 高 ，y 值 不 太 可 能 是 属于 R 中 的 像素 。 如 果 y 与 所 有 的 邻 域 都 不 同 ， 那 么 它 就 开始 
一 个 新 的 区 域 。 稍 严格 的 连接 指标 ， 不 仅 要 求 y 必 须 与 邻 域 的 均值 足够 接近 ， 而 且 要 求 该 区 域 
中 的 一 个 邻 点 必须 与 ?的 值 足 够 接近 。 

为 给 出 显著 不 同 的 精确 涵义 ， 可 以 利用 oa 水平 统计 进行 显著 性 测试 。 分 数 a 表 示 自 由 度 为 
N-1 的 7 统计 超过 值 w1(@) 的 概率 。 如 果 观 测 到 的 T 大 于 ，_1(0)， 那 么 就 说 差别 是 显著 的 。 如 果 
像素 和 分 割 区 域 确 实 来 自 同 一 群体 ， 那 么 测试 提供 不 正确 答案 的 概率 是 a。 

显著 水 平 Q 是 用 户 提供 的 一 个 参数 。 对 较 小 的 自由 度 ，iy_1(0) 的 值 较 高 ， 对 较 大 的 自由 度 ， 
iw-1(0) 的 值 较 低 。 如 果 区 域 散 度 是 相等 的 ， 区 域 越 大 ， 像 素 值 离 区 域 均值 就 越 接近 ， 这 样 才 
能 将 像素 合并 到 区 域 中 。 这 种 行为 有 阻止 大 区 域 吸收 其 他 像素 的 趋势 ， 当 区 域 变 大 时 也 有 阻 
止 区 域 均值 漂移 的 趋势 。 图 10-10 显 示 Haralick 区 域 增长 的 运算 过 程 。 





图 10-10 (积木 图 像 由 John Illingworth 和 Ata Etamadi 提 供 。 分 割 运算 采用 GIPSY 图 像 处 理 系 统 ) 
( 左 ) 积木 图 像 
(Ai) 利用 Haralick 区 域 增长 算法 得 到 的 分 割 图 像 
区 域 增长 
编程 实现 Haralick 区 域 增长 算法 ， 并 用 它 分 割 灰 度 图 像 。 
10.2 区 域 表示 
每 种 生成 图 像 区 域 的 算法 ， 必 须 有 相应 的 方法 对 图 像 区域 进 行 存储 以 备 后 用 。 存 储 方式 
包括 原 图 上 的 覆盖 图 、 标 记 图 像 、 边 界 编码 、 四 又 树 结构 和 特征 表 。 标 记 图 像 是 最 常用 的 表 
示 方 法 。 下 面 介绍 这 几 种 表示 方法 。 
10.2.1 覆盖 图 
覆盖 图 是 显示 图 像 分 割 区 域 的 一 种 方法 ， 它 在 原 图 上 覆盖 一 种 或 多 种 颜色 。 许 多 图 像 处 
理 系统 都 提供 这 种 操作 ， 作 为 图 像 输出 过 程 的 一 部 分 。 通 常 ， 原 图 是 灰 度 图 像 ， 覆 盖 的 颜色 
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是 与 灰 度 明显 不 同 的 颜色 ， 如 红色 或 白色 。 为 显示 分 割 得 到 的 区 域 ， 可 将 区 域 边界 的 像素 变 
换 成 白色 ， 并 显示 变换 后 的 灰 度 图 像 。 有 时 为 了 使 区 域 边界 更 明显 ， 可 使 边界 的 宽度 多 于 一 
个 像素 。 图 10-11a 显 示 所 选 瞳 区 域 的 边界 ， 包 括 深蓝 色 的 裁判 员外 衣 和 运动 员 的 编号 ， 和 覆盖 
在 原始 的 灰 度 图 像 上 。 和 覆盖 图 的 另 一 种 应 用 是 突出 图 像 中 的 某 种 特征 。 图 10-11b 是 第 1 章 的 工 
业 零 件 图 像 ， 其 中 识别 到 的 目标 模型 投影 覆盖 在 原始 灰 度 图 像 上 。 





图 10-11 覆盖 图 举例 

a) 选择 的 区 域 边 界 覆 盖 在 橄榄 球 图 像 上 

b) 3D 目 标 线 框 模型 覆盖 在 工业 零件 图 像 上 (Mauro Costa 提 供 ) 
10.2.2 标记 图 像 

标记 图 像 是 一 种 很 好 的 区 域 表示 方法 ， 可 用 于 进一步 的 图 像 处 理 过 程 。 其 思想 是 为 每 块 
检测 到 的 区 域 赋 予 一 个 唯一 的 标号 (一 般 是 一 个 整数 )， 并 建立 一 幅 图 像 ， 其 中 区 域内 的 所 有 
像素 都 用 唯一 的 标号 作为 像素 值 。 多 数 连通 成 分 算法 ( 见 第 3 章 ) 的 输出 就 是 标记 图 像 。 在 有 
的 运算 中 ,标记 图 像 可 作为 选 定 区 域 像素 的 模板 ， 从 而 算出 区 域 的 特征 ， 如 面积 或 最 佳 拟 合 
椭圆 的 主轴 长 度 。 标 记 图 像 也 可 以 用 灰 度 或 伪 彩 色 显 示 。 如 果 标 号 的 整数 值 较 小 ， 灰 度 图 像 
显示 时 看 起 来 都 是 黑色 ， 可 通过 拉 伸 标记 图 像 或 直方 图 均衡 化 得 到 更 好 的 灰 度 分 布 。 本 章 前 
面 的 橄榄 球 分 割 图 像 就 是 以 灰 度 表 示 的 标记 图 像 。 
10.2.3 边界 编码 

区 域 也 可 用 边界 而 不 是 图 像 来 表示 ， 这 些 边界 存储 为 某 种 数据 结构 。 最 简单 的 形式 是 区 
域 边界 像素 的 线性 链表 (参见 本 章 后 面 的 边界 抽取 过 程 ， 从 标记 图 像 抽 取 区 域 边 界 )。 点 链表 
的 一 种 变形 是 弗 里 曼 链 码 (Freeman chain code)， 它 可 根据 点 链表 以 任何 量化 程度 进行 信息 
编码 ， 这 上 比 原来 的 点 链表 占用 更 少 的 空间 。 概 念 上 看 ， 被 编码 的 边界 覆盖 在 一 个 方 格 上 ，, 方 
格 的 边 长 决定 了 编码 的 分 辩 率 。 从 曲线 的 起 始点 开始 ， 利 用 与 边界 点 最 近 的 栅 格 交点 定义 直 
线段 ， 该 直线 段 把 相 邻 的 两 个 栅 格 点 连接 起 来 。 用 一 个 小 整数 对 这 些 直线 段 的 方向 进行 编码 ， 
该 整数 取 值 范围 是 从 0 到 编码 用 到 的 邻 点 个 数 。 图 10-12 显 示 的 是 8- 邻 域 的 链 码 。0* 的 直线 段 编 
码 为 0，45 的 直线 段 编码 为 1， 以 此 类 推 下 去 ， 直 到 315* 的 直线 段 编码 为 7?。 图 中 的 小 六 边 形 
表示 闭合 曲线 的 开始 ， 其 余 的 栅 格 交点 以 鞭 形 表示 。 起 始点 的 坐标 加 上 链 码 ， 足 以 在 所 选 栅 
格 分 辩 率 上 重 构 出 该 曲线 。 链 码 不 仅 节省 空间 ， 也 可 用 于 曲线 自身 的 后 续 处 理 ， 如 基于 形状 
的 目标 识别 。 当 一 块 区 域 不 仅 有 一 个 外 边界 ， 且 有 一 个 或 多 个 内 孔 边界 时 ， 可 分 别 用 链 码 表 
示 每 个 边界 。 : 

当 不 需要 抽取 边界 时 ， 边 界 像素 可 用 直线 段 近 似 ， 形 成 对 边界 的 多 边 形 逼 近 (polygonal 
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approximation)， 如 图 10-12 的 右 下 图 所 示 。 这 种 表示 可 节省 空间 并 简化 处 理 边 界 的 算法 。 






10.2.4 四 叉 树 ANTREAAN 
四 又 树 (quadtree) 是 另 一 种 节省 空间 HH 





的 区 域 表 示 方 法 ， 它 对 整个 区 域 编码 ， 而 
不 只 是 边界 。 一 般 对 每 个 感 兴趣 区 域 都 用 


一 个 四 叉 树 结构 来 表示 。 每 个 四 又 树 的 节 
点 表示 图 像 中 的 一 个 方块 区 域 ， 它 具有 三 
个 标记 之 一 : 满 (full)、 空 (empty) 和 混 
& (mixed)。 如 果 节 点 标记 为 满 ， 那 么 该 
节点 表示 的 方块 区 域 中 的 每 个 像素 都 是 感 
兴趣 区 域 的 像素 ; 如 果 节 点 标记 为 空 ， 那 么 
在 方块 区 域 与 感 兴趣 区 域 之 间 没 有 交集 ; 如 





> 
© 





果 节 点 标记 为 混合 ， 那 么 方块 区 域 中 有 的 

像素 是 感 兴趣 区 域 中 的 像素 ， 而 有 一 些 则 5 6 7 

不 是 。 四 又 树 中 只 有 混合 节点 有 子 节点 。 A 

满 节 点 和 空 节点 都 是 叶子 节点 。 图 10-13 显 链 码 表 示 多 边 形 近似 


示 图 像 区 域 的 四 又 树 表示 方法 。 区 域 看 起 图 10.12 两 种 边界 编码 方法 ; REMAN. BE 


来 呈 块 状 ， 因 为 图 像 的 分 辩 率 仅仅 是 8 x 8, 
这 就 产生 一 个 四 层 的 四 叉 树 。 要 使 曲线 边 


码 编码 采用 8 个 符号 表示 直线 段 的 8 个 可 能 的 
角度 ， 这 些 直 线段 逼近 栅 格 上 的 曲线 。 多 边 





界 光 滑 ， 则 需要 更 多 的 层 数 。 地 理 信息 系 形 逼 近 采用 直线 段 来 拟 合 原始 曲线 ， 直 线段 
R VS 点 的 
统 中 就 采用 四 叉 树 表示 地 图 区 域 。 R ee ee 
中 © s 
Sk 6 A 
RAERSOORS 
EE See 
iat M M M 
I~ 2T NS 
EEME MFEE MEEE 
ide M A 
图 像 区 域 四 又 树 表示 
图 10-13 图 像 区 域 的 四 叉 树 表示 。 对 于 树 的 第 一 层 ， 节 点 有 四 个 子 节点 ， 分 别 对 应 左 
上 、 有 上、 左下 和 右 下 分 区 ， 如 图 中 国 圈 中 的 数字 所 示 。M = mixed，E = 
empty, F = full 
10.2.5 特征 表 


有 了 时 希望 用 区 域 特征 来 表示 区 域 ， 而 不 是 用 它 的 像素 来 表示 。 这 种 情况 下 的 表示 就 称 为 
特征 表 (property table)。 在 关系 数据 库 的 意义 上 它 是 一 个 表 ， 其 中 行 表示 图 像 中 的 每 块 区 域 ， 
列表 示 感 兴趣 的 特征 。 特 征 可 以 是 区 域 的 大 小 、 形 状 、 亮 度 、 颜 色 或 者 纹理 。 在 第 3 章 、 第 6 
章 和 第 7 章 中 描述 的 特征 都 是 可 能 的 选择 。 例 如 ， 在 基于 内 容 的 图 像 检 索 系 统 中 ， 区 域 可 能 通 
过 面积 、 最 佳 拟 合 的 椭圆 主轴 和 次 轴 之 比 、 两 种 主要 颜色 、 一 种 或 多 种 纹理 测度 等 来 表示 。 
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[204] 特征 表 可 以 增加 内 容 ， 以 包括 或 者 指向 区 域 的 链 码 编码 或 四 又 树 表 示 。 
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See T 


ea (a) 标记 图 像 和 (b) 链 码 表示 的 图 像 区 域 。 


1. 给 出 计算 区 域 面积 和 周 界 的 算法 。 
2. 给 出 算法 的 运行 时 间 。 


AOS ll 斌 像素 是 否 在 区 域 中 
考虑 用 (a) 标记 图 像 和 (b) 边界 的 多 边 形 到 近 表示 的 图 像 区 域 。 

1. 对 每 种 情况 ， 给 出 测试 像素 [7, <] 是 否 属于 该 区 域 的 算法 。 

2. 给 出 算法 的 运行 次 数 ， 用 合适 的 参数 表示 ， 如 区 域 中 的 像素 个 数 或 多 边 形 表 近 的 线 眉 
个 数 。 


10.3 轮廓 分 割 

有 的 图 像 分 析 直 接 针对 区 域 进行 运算 ， 有 的 针对 区 域 边界 或 其 他 结构 ， 如 直线 段 或 圆 弧 
段 。 本 节 讨 论 如 何 从 图 像 中 抽取 这 些 结构 。 
10.3.1 区 域 边界 跟踪 

一 旦 确定 了 区 域 ， 如 通过 分 割 得 到 的 区 域 或 者 连通 成 分 标记 的 区 域 ， 就 可 以 抽取 出 区 域 
的 边界 。 对 于 小 尺寸 图 像 ， 抽 取 边 界 很 容易 。 扫 描 图 像 ， 对 每 个 连通 成 分 ， 建 立 第 一 个 边界 
像素 的 列表 。 然 后 对 每 块 区 域 ， 从 第 一 个 边界 像素 开始 ， 沿 着 顺 时 针 方向 跟踪 连通 成 分 的 边 
和 界 ， 直 到 回 到 第 一 个 边界 像素 为 止 。 对 于 不 在 内 存 中 的 大 尺寸 图 像 ， 由 于 要 访问 大 量 的 外 存 
设备 ， 这 时 利用 简单 的 边界 跟踪 算法 ， 会 造成 过 多 的 1/O 操 作 。 

下 面 介绍 一 种 称 为 边界 查找 (border) 的 算法 ， 它 从 左 到 右 、 从 上 到 下 扫描 一 遍 图 像 ， 就 
能 抽取 出 所 有 区 域 的 边界 。 该 算法 输入 是 标记 图 像 ， 输 出 是 区 域 边界 像素 顺 时 针 方 向 的 毕 标 
列表 。 这 个 算法 很 灵活 ， 对 它 稍 加 修改 就 可 用 于 选择 特定 区 域 的 边界 。 

边界 查找 算法 的 输入 是 一 幅 标记 图 像 ， 其 像素 值 表示 区 域 的 标记 。 假 设 用 背景 区 域 标记 
表示 属于 背景 区 域 的 像素 ， 这 些 背 景区 域 可 能 不 是 连通 的 ， 它 们 的 边界 不 需要 检测 。 边 办 在 
找 算法 不 是 对 一 块 区 域 的 边界 跟踪 完成 后 再 移 向 下 一 块 区 域 ， 而 是 对 图 像 进行 从 左 到 在、 从 
上 到 下 的 扫描 ， 搜 集 组 成 区 域 边界 连接 线段 的 边界 像素 链 。 在 算法 执行 期 间 ， 其 当前 区 域 
(current region) 的 部 分 边界 已 经 扫描 过 ， 但 尚未 产生 输出 ， 但 过 去 区 域 (past region) 已 经 
完全 扫描 过 并 生成 了 边界 输出 ， 而 未 来 区 域 (future region) 尚未 扫描 到 。 

数据 结构 包括 当前 区 域 的 边界 像素 链 。 由 于 图 像 中 可 能 有 大 量 的 区 域 标记 ,但 一 次 最 多 
从 能 有 2 x number_of_columns 个 区 域 处 于 活跃 状态 ， 可 以 采用 一 个 散 列表 ， 已 知 区 域 标记 时 
就 能 够 快速 访问 区 域 链 。(2 x number_of_columns 是 安全 上 限 ， 实 际 区 域 数 会 少 一 些 。) 当 完 
成 对 一 个 区 域 的 扫描 并 产生 输出 后 ， 则 从 散 列表 中 去 除 该 区 域 。 如 果 在 扫描 中 遇 到 一 个 新 区 
域 ， 则 将 它 加 入 散 列表 。 区 域 散 列表 的 入 口 指向 该 区 域 链 的 连接 表 。 区 域 链 是 关于 像素 位 轩 
的 连接 表 ， 可 以 从 始点 或 终点 开始 生长 。 

跟踪 算法 一 次 检查 标记 图 像 的 三 行 ， 即 正在 处 理 的 当前 行 、 上 一 行 和 下 一 行 。 对 于 图 像 
的 最 上 一 行 和 最 下 一 行 ， 添 加 两 行 虚 拟 的 背景 像素 ， 这 样 所 有 行 都 可 按 同样 方法 处 理 。 对 于 
NLINES x NPIXELS 的 标记 图 像 S 的 算法 参见 算法 10.4。 
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在 这 个 过 程 中 ，S 是 标记 图 像 的 名 字 ， 这 样 SIR, C] 是 当前 被 扫描 的 像素 值 (LABEL). 40 
果 这 是 一 个 新 标记 ， 就 将 它 加 入 到 当前 区 域 标记 的 集合 CURRENT 中 。NEIGHB 是 具有 标记 
LABEL 的 像素 [R, C] 的 邻 点 列表 。 函 数 pixeltype 检 查 [R, C] 和 它 的 邻 点 值 ， 决 定 [R, CETE 
非 背 景 的 边界 像素 。 如 果 是 ， 这 个 过 程 搜索 具有 标记 LABEL 的 区 域 链 ， 其 末尾 有 [R, C] 的 邻 
点 ， 如 果 找 到 一 个 ， 用 过 程 add 把 [R, C] 
追加 到 链 的 末尾 ，add 的 第 一 个 参数 是 区 1 
域 链 ， 第 二 个 参数 是 [R, C]。 如 果 在 区 域 2 
链 的 末尾 没有 [R，C] 的 邻 点 ， 则 用 过 程 1 
make_new_chain 创建 一 个 新 的 区 域 链 ， 5 
它 仅 包含 一 个 元 素 [R，C] ， 该 过 程 的 第 一 
个 参数 是 加 了 新 链 的 链 集合 ， 这 个 新 链 
的 唯一 元 素 是 位 置 [R, C]， 位 置 [R, C] 是 
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过 程 的 第 二 个 参数 ， 第 三 个 参数 是 与 链 KR KE 列表 

en Se 1 8 3, 2)(3, 3)(3, 4)(4, HG, 4S, 3)(5, 2)(4, 2 

关联 的 标记 LABEL 。 2 10 A Be IG RH Ne ane 5 ate 3 
当 每 一 行 了 都 扫描 后 ， 把 边界 已 知 的 (4, 5)G, 5) 

当前 区 域 链 合 并 成 单个 的 边界 链 ， 作 为 Pash URI Fie a 

输出 ， 然 后 释放 与 这 些 区 域 关 联 的 散 列 图 10-14 边界 查找 算法 对 标记 图 像 的 运算 结果 


表 入 口 和 列表 元 素 。 图 10-14 显 示 标 记 图 
像 以 及 由 边界 查找 算法 得 到 的 输出 。 
算法 10.4 寻找 标记 图 像 S 的 区 域 边 界 
SIR, C] 是 输入 标记 图 像 。 
NLINES 是 图 像 的 行 数 。 
NPIXELS 是 图 像 每 行 像素 的 个 数 。 
NEWCHAIN 是 一 个 标志 ， 当 像素 开始 一 个 新 链 时 该 值 为 真 ， 当 一 个 新 像素 被 加 到 现 
存 链 上 时 该 值 为 假 。 
procedure border(S); 
{ 
for R:= 1 to NLINES 
{ 
for C:= 1 to NPIXELS 


{ 
LABEL:= S[R, C]; 








if new-region(LABEL) then add(CURRENT, LABEL); 
NEIGHB:= neighbors(R, C, LABEL); 
T:= pixeltype(R, C, NEIGHB); 
if T == 'border' 
then for each pixel N in NEIGHB 
{ 





















CHAINSET:= chainlist(LABEL); 
NEWCHAIN:= true; 
for each chain X in CHAINSET while NEWCHAIN 
if N==rear(X) 
then {add(X, [R, C]); NEWCHAIN:= false} 
if NEWCHAIN 
then make_new_chain(CHAINSET, [R, C], LABEL); 
} 
} 
for each region REG in CURRENT 
if complete(REG) 
then {connect_chains(REG); output(REG); free(REG)} 













} 
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边界 跟踪 算法 的 局 限 
边界 跟踪 算法 对 要 跟踪 的 区 域 做 了 一 定 的 限制 。 在 什么 情况 下 ， 它 无 法 正确 识别 区 域 的 
边界 ? 
10.3.2 Canny 边 缘 检 测 和 连接 
Canny 边 缘 检 测算 子 和 连接 算 子 能 够 从 图 像 中 抽取 边缘 线段 。 在 第 5 章 中 与 其 他 边缘 检测 算 
子 一 起 ， 我 们 简要 介绍 过 Canny 算 子 。 ~ -um 





Canny 算 子 很 常用 ， 近 期 对 边缘 算 子 的 比 
296) 较 工 作 说 明了 它 应 用 的 普遍 性 。 Canny 算 
297) 子 的 应 用 例子 在 第 5 章 曾 提 到 过 。 图 10-15 
是 从 第 2 章 的 大 图 像 中 抽取 的 两 个 汽车 零 
件 的 图 像 ， 可 以 看 出 边缘 检测 和 边界 跟踪 
算法 存在 的 众所周知 的 问题 : 实际 目标 的 
轮廓 线段 ， 与 光照 或 反射 造成 的 边界 轮廓 
段 交错 在 一 起 。 这 样 的 轮廓 ， 很 难 用 通用 
的 目标 识别 系统 进行 自 下 而 上 的 分 析 ， 但 > 
是 对 于 特定 的 目标 模型 ， 对 这 种 表征 进行 
Em FORMER. mm (EO menemene 
的 章节 中 我 们 会 看 到 这 一 点 。 因 此 ， 图 像 (EL) on aticanny rims 
边缘 表征 的 质量 ， 与 它们 在 整个 机 器 视觉 EF) 车 轮 图 像 


系统 中 的 应 用 情况 有 关 。 ( 左 中 ) a= 1 的 Canny 算 子 运算 结果 
、 (APF) Robert 算 子 的 运算 结果 。 上 行 中 左上 有 角 ， 由 于 存在 镜面 
10.5 ‘5 今 视 | p 
算法 10.5 中 的 Canny 边 缘 检测 算法 产 反射 ， 使 边缘 检测 算 子 无 法 很 好 地 检测 到 前 灯 铬 畦 处 的 








生 细 化 的 图 像 轮 廊 ， 仅 由 一 个 平滑 参数 Go 边沿 。 在 下 行 中 ， 轮 胎 与 档 泥 板 相连 ， 注 意 车 的 影子 也 
控制 。 图 像 首先 用 散 差 为 o 的 高 斯 滤波 器 与 轮胎 相连 ， 结 果 轮 胎 和 幅 条 都 未 能 很 好 地 检测 到 


做 平滑 处 理 ， 在 平滑 后 图 像 的 每 个 像素 处 计算 梯度 幅 值 和 方向 。 梯度 方向 用 来 细 化 边缘 ， 如 
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果 像 素 响应 不 高 于 梯度 方向 上 它 的 两 邻 点 的 像素 响应 ， 则 抑制 该 像素 响应 ， 从 而 使 边缘 得 到 
细 化 ， 这 种 方法 称 为 非 最 大 抑制 (nonmaximum suppression )。 当 需要 进行 边界 细 化 时 ， 这 种 
方法 可 和 任意 边缘 算 子 共同 使 用 。 要 与 像素 [x, y] 进 行 比 较 的 两 个 8- 邻 点 ， 其 寻找 方法 是 将 算 
出 的 梯度 方向 取 整 ， 在 中 心 像素 的 两 边 各 得 到 一 个 邻 点 。 梯 度 幅 值 被 细 化 后 ， 就 开始 跟踪 具 
有 高 幅 值 的 轮廓。 在 最 后 的 综合 阶段 ， 按 顺序 跟踪 连续 的 轮廓 段 。 选 择 轮廓 跟踪 初始 点 时 ， 
只 选择 梯度 幅 值 满足 高 闽 值 的 边缘 人 像素。 但是， 一旦 开始 跟踪 ， 轮 廓 也 可 能 通过 梯度 幅 值 满 
足 低 国 值 的 像素 点 ， 低 阔 值 通常 是 高 起 动 阔 值 的 一 半 。 

当 边 界 段 本 身 是 闭合 的 ， 有 了 时 就 能 检测 出 图 像 区 域 。 图 10-16 和 10-17 就 是 这 样 的 实例 。 将 
边界 像素 的 集合 分 成 直线 或 圆圈 后 ， 可 对 这 些 分 割 结果 进一步 分 析 。 例 如 ， 算 形 建 筑 物 的 边 
界 可 能 产生 四 条 直线 段 。 识 别 直 线段 的 方法 ， 可 采用 霍 夫 变换 或 直接 拟 合 直线 的 参数 模型 。 

算法 10.5 Canny 边 缘 检 测 : 计算 输入 图 像 的 细 化 连通 边缘 | 

I[x, y]: 输入 亮度 图 像 ; Oo 高 斯 平滑 处 理 的 散 差 。 

E[x, y]: 输出 二 值 图 像 。 

IS[x, y]: 要 平 请 的 亮度 图 像 。 

Magix, y]: 梯度 幅 值 ; Dir[x, y]: 梯度 方向 。 

To © RER RE; Trig 5 E E. 

procedure Canny(I[], c) ; 

{ 

IS[] = image I[] smoothed by convolution with Gaussian G,(x, y); 
use Roberts operator to compute Mag [x, y] and Dir[x, y] from IS[]; 
Suppress_Nonmaxima (Mag[], Dir[], Tiew, Thien) 
Edge_Detect (Mag[], Tow Thigns ELI); 

} 

procedure Suppress_Nonmaxima (Mag{], Dir[]) ; 

{ 

define + Del[4] = (1, 0), (1, 1), (0, 1) (1, 1); 
define — Del[4] = (—1, 0), (-1-,1), (0, -1) (1, -1); 
for x := 0 to MaxX-1; 
for y := 0 to MaxY-1; 
{ 
direction := ( Dir[x, y] +7/8 ) modulo 7/4; 
if (Mag[x, y] < Mag[(x, y) + Del[direction]]) then Mag{x, y] := 0; 
if (Mag[x, y] < Mag[(x, y) + —Del[direction]]) then Mag[x, y] := 0; 
} 








> 





} 
procedure Edge_Detect(Mag[], Tow, Trig» EL] ); 
{ - 
for x := 0 to MaxX - 1; 
for y := 0 to MaxY - 1; 
{ 
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if (Magix, y] > (Tuisn) then Follow_Edge(x, y, Magl], Tow» Thighs E[]); 







} 
} 
procedure Follow_Edge (x, y, Mag[], Tow Thigh EL ); 
{ 






E[x, y] := 1; 
while Mag[u, v] > Tio» for some 8-neighbor [u, vJof[x, y] 
{ 
E[u, v] := 1; 
[x, y] := [u, v]; 








} 












图 10-16 识别 图 像 的 符号 区 域 一般 比 较 容易 ， 因 为 这 样 的 区 域 对 比 度 高 。 
这 些 图 是 应 用 Canny 算 子 的 结果 
(左边 ) 用 墨水 写 在 纸 上 的 字 (图 像 由 John Weng 提 供 ) 
(右边 ) 砖 墙 上 风化 的 字 





图 10-17 北京 毛 主席 纪念 堂 图 片 ， 以 及 用 Canny 算 子 c= 1 和 c= 2 抽取 的 轮廓 图 。 
其 中 几 个 目标 的 检测 效果 很 好 ， 但 也 检测 出 一 些 阴影 





“考虑 Canny 边 缘 检测 算法 的 轮廓 跟踪 过 程 ， 通过 追踪 具有 高 梯度 幅 值 的 像素 ， 从 而 得 到 图 
像 轮 廊 ， 其 中 只 选择 与 梯度 方向 垂直 的 两 邻 点 作为 下 一 个 跟踪 目标 点 ， 这 样 做 合适 吗 》 为 什 
么 ? 举例 验证 你 的 答案 。 






做 下 面 实验 。 寻找 Canny 边 缘 检 测 的 程序 或 者 具有 Canny 算 子 的 图 像 处 理工 具 。 找 一 些 具 
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有 平行 边缘 的 扁平 物体 如 刀片 ， 一 些 圆 形 物 体 如 钻头 柄 。 从 不 同 的 方向 拍 取 它们 的 图 像 。 如 
采 可 能 ， 进 行 高 分 辩 率 扫描 。 对 这 些 图 像 进行 Canny 边 缘 检测 ， 对 边缘 的 质量 进行 分 析 ， 包 括 
平行 边缘 之 间距 离 的 可 重复 性 。 对 于 刀片 的 “锐利 边缘 ”， 和 钻头 的 “柔和 边缘 ”， 检 测 结果 
有 什么 不 同 ? 

10.3.3 相 邻 连贯 的 边缘 生成 曲线 

10.3.1 节 的 边界 跟踪 算法 要 求 输入 表示 区 域 集 合 的 标记 图 像 。 当 遍历 图 像 时 ， 算 法 沿 着 每 
块 区 域 的 边界 逐 行 跟踪 ， 由 于 假设 每 条 边界 对 应 一 个 闭合 区 域 ， 因 此 不 存在 把 边界 分 成 两 段 
或 多 段 的 像素 点 。 如 果 输 入 是 做 了 标记 的 边缘 图 像 ， 即 边缘 像素 值 为 1 而 非 边缘 像素 值 为 0， 
则 跟踪 边缘 线段 的 问题 就 更 加 复杂 。 这 里 的 边缘 像素 不 一 定 是 封闭 区 域 边界 上 的 点 ， 并 且 线 
段 由 连通 的 边缘 像素 组 成 ， 而 这 些 线段 从 端点 、 角 点 或 连接 点 到 端点 、 角 点 或 连接 点 结束 ， 
中 间 没 有 其 他 连接 点 或 角 点 。 图 10-18 显 示 的 就 是 这 样 的 一 幅 标记 边缘 图 像 。 图 像 中 的 像素 
[3,3] 是 三 条 边缘 线段 的 连接 点 。 像 素 [5,3] 是 一 个 角 点 ， 如 果 要 求 线段 在 角 点 处 结束 ， 那 么 它 
也 可 视 为 线段 端点 。 算 法 在 跟踪 这 些 线段 时 必须 考虑 下 面 的 任务 要 求 : 

(1) 开始 一 条 新 线段 。 

(2) 给 线段 加 入 一 个 内 点 像素 。 

(3) 结束 一 条 线段 。 

(4) 检测 连接 点 。 

(5) 检测 角 点 。 

和 边界 跟踪 相同 ， 需 要 采用 有 效 的 数据 结构 来 管理 过 程 中 每 一 步 的 信息 。 采 用 的 数据 结 
构 与 边界 查找 算法 中 采用 的 非常 相似 ， 不 过 现在 不 是 “过 去 ”、“ 当 前 ”和 “未 来 ”区 域 ， 而 
是 “过 去 *"、“ 当 前 ”和 “未 来 ”线段 。 线 段 是 表示 图 像 中 直线 或 曲线 的 边缘 点 列表 。 当 前 线 
段 保 存在 内 存 中 ， 通 过 散 列表 访问 。 完 成 的 线段 被 存 和 人 123 4 5 
磁盘 ， 同 时 释放 它们 在 散 列表 中 占 的 空间 。 主 要 差别 表 
现在 连接 点 和 线段 的 检测 方法 上 ， 线 段 从 上 面 或 左边 开 
始 ， 从 下 面 或 右边 结束 。 定 义 一 个 扩展 的 邻 域 算 子 ， 称 
为 pireltype， 它 决定 像素 是 否 是 孤立 点 、 新 线段 的 起 始 
点 、 旧 线段 的 内 点 、 旧 线段 的 终点 、 连 接点 或 者 角 点 。 图 10-18 标记 边缘 图 像 ， 三 条 线段 相 





如 果 像 素 是 内 点 或 者 旧 线 段 的 终点 ， 那 么 也 要 返回 旧 线 交 于 连接 点 [3, 31, REALS, 
段 的 ID 号 。 如 果 像素 是 连接 点 或 角 点 ， 则 返回 进入 线段 3] 可 能 是 角 点 

的 ID 列表 (INLIST) 和 离开 线段 的 像素 列表 (OUTLIST ) 。 a 

-> 、 、 、 线段 ID 号 长 度 列表 
标记 图 像 上 的 边缘 跟踪 过 程 参见 算法 10.6。 图 10-19 是 对 1 3 (2.28.3) 


图 10-18 的 标记 图 像 进 行 边缘 跟踪 的 结果 。 2 3 S DO. 9G. 3 
其 中 省 略 了 在 连接 点 处 对 进入 线段 和 离开 线段 ID 号 4 3 (5,3)(5. 4)(5, 5) 


的 跟踪 细节 。 这 部 分 算法 非常 简单 ， 假 设 与 连接 点 邻近 “图 10.19 对 图 10.18 进 行 边缘 跟 中 的 结 


的 每 个 像素 都 属于 不 同 的 线段 ， 在 这 种 情况 下 ， 如 果 线 果 。 假 设 点 [5, 3] 被 判断 为 角 
段 宽度 大 于 一 个 像素 ， 算 法 将 检测 到 很 多 小 线段 ， 其 实 点 。 如 果 角 点 不 是 线段 终点 ， 
它们 并 不 是 新 的 线段 。 对 边缘 图 像 应 用 连通 收缩 算 子 ， 则 线段 3 的 长 度 为 5， 其 像素 
就 可 以 避免 这 种 情况 。 另 一 种 方法 是 ， 让 pixeltype 算 子 更 IRA: D 3][4, 31 [5, 3] 


聪明 一 些 。 它 可 以 观察 更 大 的 邻 域 ， 利 用 启发 式 规则 确 
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定 这 是 当前 线段 较 粗 的 部 分 ， 还 是 新 线段 的 开始 。 一 般 根 据 实际 应 用 建立 这 些 启发 式 规则 。 


算法 10.6 寻找 二 值 边缘 图 像 S 中 的 线段 
S[R, C] 是 输入 标记 图 像 。 

NLINES 是 图 像 的 行 数 。 
NPIXELS 是 每 行 像素 的 个 数 。 
IDNEW 是 最 新 线段 的 ID。 

INLIST 是 由 pixeltype 返 回 的 进入 线段 的 ID 列表 。 
OUTLIST 是 由 pixeltype 返 回 的 离开 线段 的 ID 列表 。 
procedure edge_track(S); 

{ 

IDNEW := 0; 

for R:= 1 to NLINES 
for C:= 1 to NPIXELS 
if S[R,C] + background pixel 

{ 

NAME := address (R, C); NEIGHB:= neighbors (R, C); 
T:= pixeltype(R, C, NEIGHB, ID, INLIST, OUTLIST); 
case 
























T = isolated point : next; . 
T = start point of new segment: { 
IDNEW := IDNEW +1; 
make_new_segment(IDNEW, NAME); } ; 
T = interior point of old segment : add(ID, NAME); 
T =end point of old segment : { 
add(ID, NAME); 
output(ID); free(ID) } ; 
T = junction or corner point: 
for each ID in INLIST { 
add(ID, NAME); 
output(ID); free(ID); } ; 
for each pixel in OUTLIST{ 
IDNEW := IDNEW + 1; 
make_new_segment(IDNEW, NAME); } ; 



















or 


给 出 算 子 pixeltype 的 代码 ， 利 用 像素 的 3 x 3 邻 域 将 像素 分 成 这 几 类 : 孤立 点 、 起 点 或 终 
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10.3.4 用 替 夫 变换 检测 直线 和 圆 弧 

Æ kE (Hough transform) 是 检测 灰 度 (或 彩色 ) 图 像 中 直线 和 曲线 的 一 种 方法 。 给 
定 所 求 的 曲线 族 ， 产 生 图 像 中 出 现 的 属于 该 族 的 曲线 集合 。 本 节 讨 论 替 夫 变 换 技术 ， 并 用 它 
检测 图 像 中 的 直线 段 和 圆 弧 段 。 

1. PREMIER 

霍 夫 变换 算法 需要 一 个 累加 数组 ， 数 组 的 维 数 与 所 求 曲 线 族 方程 中 未 知 参数 的 个 数 对 应 。 
fn, PAM AER Bey = mx + b，， 对 每 个 线段 要 求 两 个 参数 : m 和 b。 该 直线 族 累加 数组 的 两 个 维 
数 ， 对 应 m 的 量化 值 和 5 的 量化 值 。 累 加 数组 累计 直线 y = mx + 5 在 箱 格 A[M, B] 范 围 存在 的 证 
据 ， 其 中 M 和 B 分 别 是 m 和 5 的 量化 值 。 

利用 累加 数组 A， 霍 夫 变 换 检查 图 像 中 的 每 个 像素 及 其 邻 域 。 先 决定 是 否 有 足够 的 证 据 证 
明 该 像素 是 边缘 点 ， 如 果 是 ， 则 计算 通过 该 像素 的 某 种 曲线 的 参数 。 对 于 直线 段 y = mx +b, 
如 果 像 素 的 边缘 强度 测度 (比如 梯度 ) 足够 高 的 话 ， 则 估计 通过 该 像素 的 直线 的 mm 和 bb。 一 且 
估计 出 给 定 像素 的 参数 ， 再 将 参数 量化 到 对 应 值 M 和 B， 累 加 数组 ATM, B] 加 上 一 个 增 量 。 有 
的 方法 是 加 1， 有 的 方法 是 加 上 被 处 理 像素 的 梯度 大 小 。 处 理 完 所 有 像素 后 ， 查 找 累 加 数组 的 
峰值 。 峰 值 对 应 图 像 中 最 有 可 能 的 直线 参数 。 

累加 数组 中 包含 无 限 的 直线 (或 曲线 ) 参数 ， 并 未 说 明 实 际 线段 的 起 点 和 终点 。 为 得 到 该 
信息 ， 添 加 称 为 PTLIST 的 并 行 结构 。PTLIST[M, B] 包 含 对 累加 器 A[M, B] 的 结果 有 贡献 的 所 
有 像素 位 置 的 列表 。 从 这 些 列表 可 以 确定 实际 线段 。 

上 面 描述 的 是 一 般 堆 夫 方法 ， 未 涉及 实现 的 细节 。 下 面 详细 讨论 直线 检测 和 圆 检测 的 霍 
夫 算 法 。 


2. 直线 段 检测 
直线 方程 y = mx + b 对 垂直 线 不 起 作用 。 更 好 的 模型 是 方程 4 = xcos6 + ysin96， 其 中 d 是 从 
直线 到 原点 的 垂直 距离 ，6 是 重 线 与 z 轴 的 光 角 。 (0, 0) 





我 们 就 采用 这 种 方程 形式 ,但 要 转化 到 行 r- 和 
列 c 坐 标 。 由 于 列 坐标 c 与 zx 对 应 ， 行 坐标 r 与 -y 
对 应 ， 则 方程 变 为 : 

d=ccosg- rsin@ (10-17) 


其 中 4 是 从 直线 到 图 像 原点 (假设 位 于 左上 和 角 ) 
的 冬 直 距离 ，6 是 垂 线 与 c ( 列 ) 轴 的 夹 角 。 图 
10-20 显 示 了 直线 段 的 参数 。 假 设 从 原点 到 线 
段 的 垂 线 ， 与 线段 交 于 点 [50, 50]，0 = 315"。 图 10-20 直线 方程 4 = -rsing+ ccos6 的 参数 4 和 6 
那么 我 们 有 





d= SQcos(315) ~ 50sin(315) = 50(0.707) - 50(-0.707) = 70 
累加 器 A 的 下 标 ， 对 应 4 和 69 的 量化 值 。0'Gorman 和 Clowes (1976) 在 他 们 的 实验 中 ， 对 
木偶 的 灰 度 图 像 取 4d 的 量化 间隔 为 3s ，9 的 量化 间隔 为 10"。 以 这 种 方式 量化 后 的 累加 数组 如 图 
10-21 所 示 。 填 充 累加 器 A 的 O'Gorman 和 Clowes 算 法 和 并 行 数组 PTLIST 的 算法 ， 参 见 后 面 的 
过 程 accumulate_lines。 
算法 在 (ÍT, 列 ) 空间 表示 。 函 数 row_gradient 和 column_gradient 分 别 是 估计 行 梯度 分 量 
和 列 梯度 分 量 的 邻 域 函数 ， 函 数 gradient 根 据 行 、 列 梯度 分 量 得 到 梯度 幅 值 。 函 数 atan2 是 标准 
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科学 计算 库 国 数 ， 该 函数 根据 梯度 的 行列 分 量 返 回 位 于 正 
确 象限 的 角度 。 假 设 atan2 的 返回 值 处 于 0" 和 359" 之 间 。 很 
多 函数 返回 的 角度 以 弧度 表示 ， 这 还 需要 转化 为 角度 。 如 
果 距 离 4 得 出 负 值 (例如 对 于 9 = 135°" )， 那 么 它 的 绝对 值 
表示 到 直线 的 距离 。 这 个 过 程 的 作用 原理 参见 图 10-22。 注 
意 采用 3 x 3 的 梯度 算 子 ， 直 线 是 两 个 像素 宽 。 同 时 要 注意 
计数 不 是 在 两 个 标准 紫 加 器 内 进行 ， 而 是 在 其 他 累加 器 中 
进行 。 

过 程 accumulate_lines 采 用 的 是 O'Gorman 和 Clowes 霍 
夫 变 换 方法 。 累 加 器 和 列表 数组 得 到 填充 ， 当 然 不 存在 抽 
取 直 线段 的 标准 方法 。 特 殊 过 程 find_lines 参 见 算法 10.8， 
显示 出 直线 段 抽取 过 程 中 出 现 的 一 些 问题 。 


x 10% 





340 350 


图 10-21 检测 256 x 256 图 像 中 直线 段 


的 累加 数组 











算法 10.7 霍 夫 变 换 检 测 直线 : 将 灰 度 图 像 S 中 的 直线 段 加 到 累加 器 A 中 


S[R, C] 是 输入 灰 度 图 像 。 
NLINES 是 图 像 的 行 数 。 
NPIXELS 是 每 行 像素 的 个 数 。 
A[DQ,THETAQ] 是 累加 数组 。 
DQ 是 从 直线 到 原点 的 量化 距离 。 
THETAQ 是 直线 重 直 方向 的 量化 角度 。 
procedure accumulate_lines(S, A); 
{ 
A:=0; 
PTLIST := NIL; 
for R := 1 to NLINES 
for C := 1 to NPIXELS 
{ 
DR := row_gradient (S,R, C) ; 
DC :=col_gradient (S,R,C) ; 
GMAG := gradient (DR, DC) ; 
if GMAG > gradient_threshold 
{ 
THETA := atan2 (DR,DC) ; 
THETAQ := quantize_angle(THETA); 





D := abs (C*cos (THETAQ) - R*sin(THETAQ)); 


DQ := quantize_distance(D); 


A[DQ, THETAQ] := A[DQ, THETAQ] + GMAG; 


PTLIST(DQ, THETAQ) := append(PTLIST(DQ, THETAQ),[R, C]) 


} 


- 
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图 10-22 过 程 accumulate 的 执行 结果 ， 对 简单 的 灰 度 图 像 用 Prewitt 模 板 进 行 运算 。 
对 于 这 个 简单 例子 ， 正确 检测 到 的 特征 和 错误 检测 到 的 特征 差不多 。 对 
于 具有 较 长 线段 的 实际 图 像 ， 正 确 检 测 到 的 特征 将 更 多 一 些 





算法 10.8 用 O'Gorman/Clowes 方 法 查找 独立 直线 段 的 点 的 列表 
A[DQ, THETAQ] 是 从 accumulate_lines 得 到 的 累加 数组 。 

DQ 是 从 直线 到 原点 的 量化 距离 。 
THETAQ 是 直线 垂直 方向 的 量化 角度 。 


procedure find_lines; 











228 务 710 间 


{ 
V:= pick_greatest_bin (A, DQ, THETAQ) ; 
while V > value-threshold 
{ 
list_of_points := reorder(PTLIST[DQ, THETAQ]); 
for each point [R, C] in list-of-points 
for each neighbor [R’, C’] of [R, C] not in list_of_points 
{ 
DPRIME := D[R’, C1]; 
THETAPRIME := THETA[R’, C1; 
GRADPRIME := GRADIENT[R’, C1; 
if GRADPRIME > gradient-threshold 
and abs (THETAPRIME - THETAQ) < 10 
then { 
merge(PTLIST[DQ, THETAQ], PTLIST[DPRIME, 
THETAPRIME)); 
set_to_zero[A, DPRIME, THETAPRIME]; 
} 


} 
final_list_of_points := PTLIST[DQ, THETAQ]; 


create_segments (final_list_of_points ) ; 
set_to_zero[A, DQ, THETAQ]; 

V := pick_greatest_bin[A, DQ, THETAQ]; 
} 


图 数 pick_greatest_bin 返 回 最 大 累加 器 的 值 ， 并 将 最 后 两 个 参数 DQ 和 THETAQ 设 置 为 该 
箱 格 的 量化 4 值 和 6 值 。 国 数 reorder 对 箱 格 内 的 点 列表 进行 排序 : 86<45 或 9> 135 时 根据 列 坐 标 
排序 ，45 < 9< 135 时 根据 行 坐标 排序 。 希 望 数组 D 和 THETA 中 保存 的 是 累加 过 程 中 算出 的 量 
化 D 值 和 THETA 值 。 同 样 希望 数组 GRADIENT 中 保存 的 是 算出 的 梯度 幅 值 。 这 些 可 作为 中 间 
图 像 存 起 来 。 过 程 merge 将 像素 邻 点 所 在 的 点 列表 与 该 像素 所 在 的 点 列表 合并 起 来 ， 保 持 空 间 
顺序 不 变 。 过 程 set_to_zero 对 累加 器 清 零 ， 使 其 不 被 重用 。 最 后 ， 过 程 create_segments 搜 索 最 
后 的 有 序 点 集 ， 寻 找 大 于 一 个 像素 的 间距 。 它 创建 并 保存 在 间距 处 终止 的 线段 集合 。 为 了 更 
加 准确 ， 利 用 最 小 二 乘 过 程 将 系列 点 拟 合成 直线 段 。 需 要 提 及 的 重要 一 点 是 ， 霍 夫 过 程 能 够 
抽取 出 明显 的 断 线 或 虚线 特征 ， 例 如 一 排 石子 或 者 一 条 被 下 落 树枝 分 割 的 道路 。 






这 个 习题 与 Kasturi 等 人 (1990) 的 工作 有 关 。 用 霍 夫 变 换 识别 文本 行 。 应 用 已 有 的 程序 
或 工具 ， 并 编写 需要 的 新 程序 进行 下 面 的 实验 : (a) 打字 或 打印 出 几 行 不 同方 向 的 文本 ， 并 
将 图 像 二 值 化 。 加 入 一 些 别 的 目标 ， 如 得 点 或 曲线 。(b) 进行 连通 成 分 标记 ， 并 输出 所 有 目 
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标的 中 心 ， 其 中 目标 的 边界 框 正好 框 住 字符 。(c) 将 所 有 中 心 输入 到 霍 夫 直线 检测 过 程 ， 讨 
论文 本 行 检测 的 效果 如 何 。 
3. 圆 检测 
霍 夫 变换 技术 可 扩展 到 检测 圆 和 其 他 参数 曲线 。 圆 的 标准 方程 有 三 个 参数 。 如 果 点 [R，C] 
位 于 圆 上 ， 那 么 点 [R, C] 到 圆心 的 梯度 如 图 10-23 所 示 。 这 样 如 果 给 定点 [R, C]， 选 择 了 半径 d， 
计算 出 从 [R, C] 到 圆心 的 向 量 方向 ， 就 可 以 找到 圆心 的 坐标 。 半 径 d、 圆心 的 行 坐 标 r, 和 圆心 
的 列 坐 标 c, 是 霍 夫 算 法 要 检测 的 圆 的 三 个 参数 。 在 行 - 列 坐 标 系 中 ， 圆 用 下 面 的 方程 表示 : 
r=ro++dsing (10-18) 
c€ = co — dcos (10-19) 
采用 这 些 方 程 ， 圆 检测 的 累加 算法 即 后 面 的 accumulate_ circles 算 法 。 


对 这 个 过 程 进行 简单 修改 ， 把 梯度 幅 值 考虑 进去 ， 如 直线 段 检测 过 程 那样 。 将 其 应 用 于 
技术 文档 图 像 ， 结 果 如 图 10-24 所 示 。 





图 10-23 圆周 边界 点 的 梯度 方向 。 根 据 指 向 圆 ”图 10-24 对 技术 图 利用 霍 夫 变换 检测 出 的 圆 ， 为 了 显示 
内 的 梯度 ， 可 以 求 出 圆心 的 位 置 清楚 ， 在 被 检测 到 的 圆 外 套 了 一 个 略 大 的 外 贺 


算法 10.9 霍 夫 变换 检测 圆 : 将 灰 度 图 像 S 中 的 圆 累 积 到 累加 器 A 中 
S[R, C] 是 输入 灰 度 图 像 。 

NLINES 是 图 像 中 的 行 数 。 

NPIXELS 是 每 行 像素 的 个 数 。 

AIR, C, RAD] 是 累加 数组 。 

R 是 圆心 的 行 索引 。 

C 是 圆心 的 列 索引 。 

RAD 是 圆 的 半径 。 


procedure accumulate_circles(S,A); 
{ 
A:= 0; 
PTLIST:= 0; 
for R:= 1 to NLINES 
for C:= 1 to NPIXELS 
for each possible value RAD of radius 
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{ 

THETA := compute_theta(S,R,C,RAD); 
R0:= R — RAD*cos(THETA); 

CO := C + RAD#sin(THETA); 


A[RO, C0, RAD] := A[RO, C0, RAD]+1; 
PTLIST[RO, C0, RAD] :=append(PTLIST[RO, C0, RAD], [R, C]) 
} 





4. 任意 曲线 检测 
霍 夫 变换 可 推广 到 具有 解析 形式 fx, a) = 0 的 任意 曲线 ， 其 中 x 表 示 图 像 点 ，a 是 参数 向 量 。 
过 程 如 下 : 


(1) 初始 化 累加 数组 A[a] 为 0。 

(2) 对 每 个 边缘 像素 x 确定 a， 使 得 f(x, a) = 0， 并 设 A[a] := Ala]. 

(3) A 的 局 部 最 大 值 对 应 图 像 中 的 1 曲线。 

如 果 在 a 中 有 产 个 参数 ， 每 个 参数 具有 M 个 离散 值 ， 那 么 时 间 复 杂 度 是 OUM“- 23) 。 霍 夫 变换 
方法 已 经 被 进一步 推广 到 由 一 系列 边界 点 确定 的 任意 形状 (Ballard, 1981)。 这 就 是 著名 的 广 
XE AK EM (generalized Hough transform). 


5. Burns 直 线 检测 器 

一 些 混合 方法 利用 了 霍 夫 变换 原理 。Burns 直 线 检测 器 (Burns 等 人 , 1986) 是 为 了 检测 室 
外 复杂 场景 中 的 直线 。Burns 方 法 总 结 如 下 : 

(1) 计算 每 个 像素 的 梯度 幅 值 和 方向 。 

(2) 对 于 具有 足够 高 梯度 幅 值 的 点 ， 用 两 个 标记 表示 梯度 方向 两 种 不 同 的 量化 措施 。 
(例如 ， 对 于 8 个 箱 格 情况 ， 如 果 第 一 种 量化 措施 是 0 至 44, 45 至 90, 91 至 134 等 等 ， 那 么 第 二 种 
量化 措施 是 -22 至 22, 23 至 67, 68 至 112 等 ) 。 结 果 产 生 两 个 符号 图 像 。 

(3) 对 于 每 幅 符号 图 像 ， 检 测 连通 成 分 ， 计 算 每 个 成 分 的 线段 长 度 。 

* 每 个 像素 是 两 个 成 分 的 成 员 ， 成 分 来 自 两 幅 符号 图 像 。 
* 每 个 像素 对 较 长 的 成 分 进行 表决 。 

© 每 个 成 分 收 到 对 其 表决 的 像素 数 。 

“选择 收 到 大 多 数 支持 的 成 分 (直线 段 ) 。 

Burns 直 线 检测 器 用 到 了 两 种 有 效 算 法 : 霍 夫 变换 和 连通 成 分 算法 。 为 了 去 除 量化 影响 ， 
在 O'Gorman 和 Clowes 方 法 中 ， 采 用 两 套 独立 的 量化 措施 搜索 相 邻 的 箱 格 。 实 际 应 用 中 ， 它 存 
在 一 个 问题 ， 这 个 问题 也 影响 所 有 基于 像素 小 邻 域 来 估计 角度 的 直线 检测 方法 。 这 个 问题 在 
于 数字 直线 并 不 直 。 对 角 线 实际 上 由 一 系列 水 平和 垂直 阶梯 组 合 而 成 。 如 果 角 度 检 测 方法 采 
用 的 邻 域 太 小 ,将 找到 许多 细小 的 水 平和 垂直 线段 ， 而 不 是 较 长 的 对 角 线 。 所 以 在 实际 中 ， 
Burns 直 线 检测 法 以 及 任何 其 他 基于 角度 的 直线 检测 法 ， 都 会 将 直线 分 成 小 段 ， 而 人 类 则 把 这 

BO) 些 直 线 看 成 是 一 整 条 连通 线 。 


Ww 
pos 
© 





Burns 和 霍 夫 算法 的 比较 i 
实现 检测 直线 的 霍 夫 变换 和 Burns 算 子 ， 并 比较 它们 在 包含 大 量 直线 的 实际 图 像 上 的 效果 。 
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实现 下 面 方法 ， 检 测 灰 度 图 像 I 中 的 直线 。 重 要 聚 类 将 与 I 中 的 重要 线段 对 应 。 
for all image pixels I[R, C] 
{ 
compute the gradient G,,,, and Gair 
if Gaae > threshold 
then output [G mag; Gair] to set H 
} 


detect clusters in the set H ; 


10.4 线段 拟 合 模型 

拟 合 数据 的 数学 模型 不 仅 能 够 揭示 重要 的 数据 结构 ， 也 为 进一步 分 析 提 供 合 适 的 表达 方 
法 。 直 线 模型 可 表示 建筑 物 的 边缘 ， 平 面 模型 可 表示 建筑 物 的 表面 。 对 于 圆 、 圆 柱 和 许多 其 
他 形状 都 存在 合适 的 数学 模型 。 

下 面 的 最 小 二 乘 方法 (method of least squares) 能 够 确定 拟 合 数据 的 最 佳 数 学 模型 的 参数 。 
这 些 数据 可 以 用 前 面 描述 的 区 域 分 割 或 边界 分 割 方法 得 到 。 例 如 ， 前 面 提 过 可 将 所 有 像素 点 [7， 
c] 用 直线 模型 拟 合 ， 在 霍 夫 累加 数组 中 ， 这 些 像素 对 某 种 直线 假设 AITHETAQ, DQ] 进 行 表决 。 
候选 的 模型 种 类 有 无 限 多 ， 为 了 应 用 最 小 二 乘法 ， 必 须 通 过 某 种 方法 确定 合适 的 模型 形式 。 一 
且 确 定 了 模型 形式 及 其 参数 ， 就 可 确定 该 模型 对 数据 的 拟 合 结果 是 否 是 可 接受 的 。 拟 合 效 果 好 
就 意味 着 检测 出 了 具有 某 种 形状 的 目标 ， 或 者 为 进一步 分 析 提 供 一 种 更 紧凑 的 数据 表示 方法 。 





(E) 用 模型 y = fx) 拟 合 6 个 数据 点 
(Hi) 可 能 的 直线 模型 和 圆 模型 。 余 差 说 明 直线 拟 合 是 有 偏 的 ， 圆 拟 合 是 无 偏 的 
1. 直线 拟 合 
通过 简单 实例 解释 最 小 二 乘 理论 。 直 线 模型 是 带 有 两 个 参数 的 函数 y = ftx) = cix + co。 如 果 
我 们 想 测试 一 组 观测 点 {oo, y) j=1, n}， 看 看 它们 是 否 位 于 该 直线 上 。 首 先 要 确定 线性 函数 
的 最 佳 参 数 c, 和 co， 然 后 检查 这 些 观测 点 距离 函数 有 多 近 。 可 用 不 同 指标 度量 观测 点 与 模型 的 
近似 程度 。 图 10-25 显 示 用 一 条 直线 来 拟 合 6 个 数据 点 。 可 以 移动 直线 ,得 到 另 一 条 不 同 的 直线 ， [312 
拟 合 结果 仍 然 很 好 。 根 据 定义 74， 最 小 二 乘 指标 (least-squares criteria) 定义 了 最 佳 拟 合 直线 。 


定义 74 最 小 二 乘 误差 指标 通过 下 列 公 式 ， 衡 量 模型 y = fx) 对 m 个 观测 点 {Co, y) j= 
1, n} 的 拟 合 效 果 : 
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LSE = 》 (f (xj) ~ yj) 
j=l 


最 佳 模型 y = fx) 指 能 够 使 该 指标 最 小 化 的 参数 模型 。 
定义 75 方 均 根 误差 (RMSE)， 指 模型 与 观测 点 之 间 差异 的 平均 值 : 


1/2 
a 

j=l 

注意 对 于 直线 拟 合 ， 这 个 差异 不 是 直线 到 观测 点 的 欧 几 里 得 距离 ， 而 是 如 图 10-25 所 示 与 
y 轴 平行 的 距离 。 


定义 76 ”最 大 误差 指标 通过 下 列 公 式 ， 衡 量 模型 y = fo) MnP MMA, 力 ，/ = 1， 
NALS BR 


RMSE = 





MAXE = max ({|(f (xj) — yj)I}j=1,) 
注意 这 个 指标 只 与 最 差 拟 合 点 有 关 ， 而 RMS 误 差 与 所 有 拟 合 点 有 关 。 
表 10-1 用 y= 3x-7 生 成 数据 并 加 上 了 噪声， 利用 最 小 二 乘法 得 到 拟 合 模型 y = 2.971x- 6.962 





Data Pts(x;, y)) (0.0, -6.8) (1.0, -4.1) (2.0, - 1.1) (3.0, 1.8) (4.0, 5.1) (5.0, 7.9) 
Residuals y- y; -0.162 0.110 0.081 0.152 -0.176 -0.005 
2. 参数 的 封闭 解 


最 小 二 乘 指 标 得 到 普遍 使 用 ， 有 两 个 原因 ， 首 先 ， 当 噪声 模型 是 高 斯 噪声 时 ， 必 然 会 选 
择 最 小 二 乘 指标 ; 其 次 ， 求 最 佳 模型 参数 时 ， 容 易 推导 出 封闭 形式 的 解 。 我 们 首先 推导 最 侍 
拟 合 直线 的 参数 封闭 解 ， 其 他 模型 采用 类 似 的 推导 过 程 。 直 线 模 型 的 最 小 二 乘 误差 可 以 显 式 
表示 如 下 。 其 中 公式 中 的 观测 数据 x、y 视 为 常量 。 

LSE = £(c1, co) = 》 (cix + co — yj) 
j=l 
误差 函数 e 是 带 两 个 参数 c, 和 co 的 光滑 非 负 函数 ， 它 在 点 (ci, co) 处 具有 全 局 最 小 值 ， 其 中 
9e/9c; = 0, deldcy = 0。 对 公式 (10-21) 进行 求 导 ， 并 利用 和 的 导数 等 于 导数 的 和 这 个 事实 ， 
得 到 下 面 的 结果 。 


(10-20) 


ðe/ðcı = 2(cxj + co— yj)xj = 0 (10-21) 
j=! 


=2 的 Cl 十 了 (+) co 一 2》 xj, (10-22) 
j=l 


j=l j=l 


ðe/ðco = 》 2(c1xj +c — yj) = 0 (10-23) 
j=l 


n n n 
-人 cl 二 2》 co 一 2》 y (10-24 ) 
j=l j=l j=l 
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这 些 方程 可 表示 成 矩阵 形式 。 求 解 这 些 方程 就 得 到 最 佳 直线 参数 。 对 于 任意 多 项 式 拟 合 
的 一 般 情 况 ， 将 产生 一 组 表达 形式 类 似 的 方程 ， 称 为 规范 化 方程 (normal equations ) 。 
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习题 10.13 用 一 条 直线 拟 合 3 个 点 


利用 公式 (10-25)， 计 算 通 过 点 [0, -7]、[2, -1 和 [4, 5] 的 最 佳 直线 参数 cj 和 co。 


规范 化 方程 

(a) 对 观测 数据 (x, y,), = 1,n， 用 三 次 多 项 式 cye? + ox + ox + co 拟 合 ， 推 导 包含 4 个 
参数 的 矩阵 方程 形式 。(b) 根据 矩阵 元 素 的 模式 ， 预 测 四 次 多 项 式 拟 合 的 矩阵 形式 。 

3. 误差 的 经 验 解释 

在 机 器 视觉 问题 中 ， 误 差 和 个 别 误差 的 经 验 解释 一 般 比较 直接 。 例 如 ， 如 果 模 型 用 拟 合 
所 有 观测 数据 所 产生 的 误差 是 一 到 两 个 像素 ， 我 们 就 会 接受 这 个 拟 合 结果 。 对 于 受 控 2D 成 像 
环境 ， 其 中 主要 包含 直 边 目标 ， 要 研究 的 内 容 就 是 ， 看 看 检测 到 的 边缘 点 与 理想 直线 有 多 大 
的 偏离 程度 。 如 果 个 别 点 离 拟 合 直线 很 远 (这 些 点 称 为 局 外 点 (outliers))， 则 意味 着 特征 检 
测 出 现 错误 ， 目 标 上 有 缺陷 ， 或 者 存在 另 一 个 目标 或 模型 。 在 这 些 情况 下 ， 合 适 的 做 法 是 从 
观测 数据 中 删除 这 些 局 外 点 ， 重 新 拟 合 ， 这 样 得 到 的 模型 就 免 受 局 外 点 的 影响 。 所 有 的 原始 
点 仍 可 用 新 模型 进行 解释 。 如 果 用 拟 合 模型 进行 曲线 分 割 ， 一 般 要 删除 端点 ， 因 为 它们 实际 
上 属于 另 一 种 形状 的 目标 或 部 件 。 

4. 误差 的 统计 解释 * 

可 用 正规 统计 假设 来 解释 误差 。 一 般 假 设 是 ，y, 的 观测 值 仅仅 是 模型 值 /tw) 加 上 服从 正 态 
分 布 N(0, 0) 的 高 斯 噪声 ， 其 中 o 可 通过 分 析 测 量 误差 得 到 ， 可 利用 上 面 的 经 验方 法 。 假 设 个 别 
观测 /与 观测 k 之 间 的 噪声 是 相互 独立 的 。 变 量 5 = D E- MAL BORE 


它 的 似 然 度 可 通过 公式 或 查 表 确定 。 直 线 拟 合 的 自由 度 是 n-2， 因 为 从 n 次 观测 中 要 估计 2 个 参 
数 。 如 果 * 分 布 的 95% 低 于 观测 到 的 5,,， 那 么 就 应 该 拒绝 模型 拟 合 数据 的 假设 。 也 可 用 其 他 的 
置信 水 平 。* 检 验 不 仅 适用 于 接受 /拒绝 一 个 假设 ,而 且 适用 于 从 一 组 竞争 模型 中 选择 最 可 能 
的 模型 。 例 如 ， 抛 物 线 模型 可 能 会 与 直线 模型 发 生 竞 争 。 注 意 在 这 种 情况 ， 抛 物 线 模型 y = 
CX? + CX + co 有 3 个 参数 ， 这 样 好 分 布 将 有 z-3 的 自由 度 。 

直观 上 ， 观 测 j 的 误差 与 观测 j-1 或 i + 1 的 误差 相互 独立 这 一 假设 不 是 太 合适 。 例 如 ， 一 个 
错误 的 产生 可 能 会 引起 点 的 整个 邻 域 不 再 服从 理想 模型 。 独 立 性 假设 可 以 根据 正 负 号 变化 
(run-of-signs) 进行 检验 ， 根 据 正 负 号 变化 可 检测 误差 中 的 系统 偏差 ， 而 系统 偏差 意味 着 采用 
另 一 种 形状 模型 将 产生 更 好 的 拟 合 效果 。 如 果 噪 声 确实 是 随机 的 ， 那 么 误差 的 正 负 号 也 是 随 
机 的 ， 从 而 造成 误差 的 上 下 波动 。 图 10-25 ( 右 ) 显示 有 偏 的 线 型 拟 合 和 无 偏 的 圆 形 拟 合 情 况 。 
误差 符号 说 明了 直线 拟 合 是 有 偏 的 。 关 于 评估 拟 合 质量 的 统计 假设 检验 ， 参 见 本 章 末 的 参考 
文献 。 


习题 10.15 拟 合 3D 点 的 平面 方程 


(a) 对 5 个 表面 点 (20, 10, 130), (25, 20, 130)、(30, 15, 145), (25, 10, 140), (30, 20, 


(10-25) 
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140)， 进 行 最 小 二 乘 平面 拟 合 ， 求 解 模型 z = fx, y) = ax + by + c 的 3 个 参数 a、b、c; (b) 对 5 
个 点 的 3 个 坐标 都 加 上 1 个 随机 变化 ， 重 复 问题 (a)。 通 过 抛 硬币 来 确定 变化 量 ; 如 果 硬 币 正 
面 朝 上 则 加 1， 反 面 朝 上 则 减 1。 





16 Prewitt 算 子 是 最 优 的 
说 明 对 亮度 函数 的 3 x 3 邻 域 用 最 小 二 乘 平面 进行 拟 合 ， 可 以 得 到 第 5 章 的 Prewitt 梯 度 算 子 。 
为 计算 lx, J] 处 的 梯度 ， 拟 合 9 个 点 : (x +Ax, y + Ay, 了 [x +Ax, y+Ay])， 其 中 Ar 和 Ay 可 取 -1、0、+1。 
对 于 亮度 表面 的 最 佳 拟 合 平面 模型 z = ax + by + c， 证 明 利用 两 个 Prewitt 模 板 就 可 实际 算出 a 和 b。 


5. 拟 合 中 的 问题 

考虑 拟 合 中 的 几 类 问题 是 非常 重要 的 。 

局 外 点 ”由 于 每 个 观测 值 都 影响 RMS 误 差 ， 大量 的 局 外 点 会 使 拟 合 失去 价值 。 最 初 的 拟 
合 结果 可 能 偏离 理想 模型 太 远 ， 从 而 无 法 识别 并 去 掉 真正 的 局 外 点 。 这 时 可 采用 稳健 统计 方 
法 ， 参 见 本 章 末 列 出 的 Boyer 等 人 的 (1994) 文献 。 

误差 定义 误差 的 数学 定义 ， 是 y 轴 方向 的 偏差 ， 而 不 是 真正 的 几何 距离 。 这 样 最 小 二 乘 
拟 合 所 得 到 的 曲线 或 曲面 ， 未 必 能 够 最 接近 几何 空间 中 的 数据 。 图 10-25 右 图 中 最 右边 的 一 点 
就 说 明了 这 个 问题 ， 在 几何 上 该 点 离 贺 非常 近 ， 但 沿 y 轴 的 函数 偏差 却 很 大 。 当 用 复杂 曲面 拟 
合 3D 点 时 ， 这 种 效果 更 加 明显 。 虽 然 几何 距离 通常 比 函数 偏差 更 有 意义 ,但 有 时 并 不 容易 计 
算 。 对 于 直线 拟 合 情 况 ， 当 直线 接近 竖 直 时 ， 采 用 第 3 章 的 最 佳 轴 计 算 方 法 要 比 这 里 的 最 小 二 
乘 方法 效果 更 好 。 最 佳 轴 计 算 公 式 以 点 和 线 间 的 几何 距离 最 小 为 基础 。 

非 线 性 优化 有 时 无 法 得 到 模型 参数 的 封闭 解 。 但 误差 指标 仍 可 进行 优化 ， 利 用 参数 空间 
搜索 技术 寻找 最 优 参数 。 礁 山 法 、 基 于 梯度 的 搜索 甚至 穷尽 搜索 都 可 用 于 优化 。 参 见 Chen 和 
Medioni 以 及 Sullivan，Sandford 和 Ponce (1994) 的 工作 ， 其 中 涉及 到 非 线性 优化 及 前 面 提 到 
的 问题 。 

高 维 数 当 数据 维 数 或 模型 参数 个 数 较 多 时 ， 对 拟 合 的 经 验 解释 和 统计 解释 都 是 困难 的 。 
另外 ， 如 果 采 用 搜索 技术 来 寻找 参数 的 话 ， 甚 至 难以 知道 这 些 参数 是 否 是 最 优 的 ， 或 者 只 是 
误差 指标 的 局 部 最 小 值 。 

拟 合 条 件 有 时 拟 合 模型 必须 满足 附加 的 约束 条 件 。 例 如 ,我们 可 能 需要 寻找 通过 观测 点 
的 最 佳 直线 ， 而 且 它 必须 和 另 一 条 直线 垂直 。 约 束 最 优化 方法 参见 参考 文献 。 

6. 基于 拟 合 的 曲线 分 段 

上 面 的 模型 拟 合 方法 及 理论 ， 需 要 假设 模型 形式 和 一 组 观测 数据 。 通 过 边界 跟踪 ， 可 得 


。 到 长 带 形 边界 点 ， 对 这 些 边 界 点 可 按 下 面 方法 进行 分 割 。 首 先 ， 检 测 边界 序列 中 的 高 曲率 点 


或 尖端 点 ， 用 这 些 点 对 曲线 进行 分 割 ; 然后 ， 用 断 点 之 间 的 曲线 段 检验 假设 的 模型 。 结 果 产 
生 一 组 曲线 段 ， 以 及 描述 每 段 形状 的 数学 模型 和 参数 。 对 边界 曲线 分 段 的 另 一 种 方法 是 模型 
拟 合 。 在 第 一 阶段 ， 对 k 个 序列 点 的 子 序列 进行 模型 拟 合 。 对 每 个 可 接受 的 拟 合 结果 ， 将 其 如 
值 存 人 一 个 集合 中 ; 第 二 个 阶段 ， 通 过 不 断 往 子 序列 中 增加 其 他 端点 ， 来 扩展 可 接受 的 拟 合 
结果 。 拟 合 线段 持续 增长 ， 直 到 加 入 的 新 端点 使 拟 合 结果 的 妃 值 下 降 为 止 。 结 果 得 到 一 组 可 
能 重 倒 的 子 序列 ， 每 个 子 序列 都 有 一 个 模型 以 及 拟 合 模型 的 * 值 。 然 后 把 这 个 集合 传递 给 更 
高 层 的 过 程 ， 高 层 过 程 根据 检测 到 的 部 件 构建 出 目标 模型 。 这 个 过 程 在 思想 上 和 10.1.2 中 的 区 
域 增 长 很 相似 ， 它 对 直线 段 进行 增长 ， 把 边缘 像素 处 的 方向 作为 关键 特征 ， 而 在 区 域 增长 中 
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把 灰 度 值 属性 作为 关键 特征 。 
10.5 识别 更 高 层 结 构 

图 像 分 析 经 常 需要 对 区 域 或 线段 进行 综合 考虑 。 例 如 ， 四 边 形 区 域 和 边缘 直线 段 结合 ， 
可 能 意味 着 图 中 具有 建筑 物 ; 边缘 线段 的 交点 是 建筑 物 的 角 ; 蓝 色 区 域 中 的 绿色 区 域 可 能 是 
一 个 小 岛 。 区 段 组 合 的 方法 是 无 穷 的 。 下 面 我 们 只 讨论 两 种 常见 的 边缘 段 组 合 方法 ， 它 们 构 
成 更 丰富 的 结构 信息 。 这 两 种 组 合 结果 是 条 带 (ribbon) 和 角 点 (corner), 

10.5.1 条 带 检测 

一 种 非常 通用 的 图 像 区 域 类 型 是 条 带 。 条 带 通常 是 2D 或 3D 的 细 长 目标 的 图 像 。 例 如 ， 印 
刷 电路 上 的 线路 、 房 屋 门 、 桌 上 的 笔 ， 或 者 穿 过 田野 的 道路 。 在 这 些 例 子 中 ， 条 带 两 边 近 似 
平行 ， 但 不 一 定 是 直 的 。 虽 然 下 面 的 讨论 局 限于 直 边 ， 但 条 带 有 更 一 般 的 形状 ， 例 如 酒 瓶 或 
装饰 灯 柱 ， 其 侧面 轮廓 是 某 种 复杂 的 曲线 ， 关 于 条 带 轴 对 称 。 电 线 、 绳 索 、 曲 折 的 溪流 或 首 
路 ， 在 图 像 中 都 呈现 条 带 ， 绳 索 或 灯 柱 的 影子 也 如 此 。 第 14 章 讨论 的 称 为 广义 圆柱 体 
(generalized cylinders) 的 3D 目 标 部 件 ， 其 视图 也 呈现 条 带 。 图 10-16 的 左边 是 由 四 个 条 带 表 
示 的 图 符 ， 其 中 两 个 明显 有 弯曲 。 对 通用 条 带 的 抽取 我 们 留 作 以 后 进行 研究 ， 现 在 集中 讨论 
直 边 的 条 带 。 

定义 77 条 带 是 关于 其 主轴 大 致 对 称 的 细 长 区 域 ， 条 带 边 缘 与 背景 的 对 比 差异 一 般 

有 具有 对 称 性 ， 但 也 有 例外 。 

如 图 10-26 所 示 ， 对 霍 夫 变换 稍 加 扩展 ， 就 可 对 边缘 方向 和 位 置 以 及 穿 过 边缘 的 梯度 方向 
进行 编码 。 第 5 章 和 本 章 前 面 讨 论 过 ， 对 于 梯度 幅 值 较 大 的 像素 点 [r, c]， 其 梯度 方向 9 可 以 利 
用 算 子 如 Sobel 算 子 算出 ， 方 向 范围 为 [0, 2r]。 从 图 像 原 点 到 该 像素 的 向 量 是 [r, cl] ， 将 该 向 量 
投影 到 方向 6 的 单位 向 量 上 ， 得 到 带 正 负 号 的 距离 d。 

d = [r, c] o [—sin@,cos@] = =r sin + ccos@ (10-26) 


正 值 4 与 像素 [r, c] 的 一 般 极 坐 标 表示 相 Pa 
同 。 当 从 原点 到 边缘 的 方向 与 梯度 方向 相反 S 
时 ， 就 会 得 到 负 值 4， 例 如 对 棋盘 上 的 线条 至 
类 将 产生 两 个 类 别 。 图 10-26 说 明了 这 种 思想 。 
考虑 图 中 的 边 P,P;。 沿 着 这 条 边 的 像素 应 该 
都 具有 大 约 30° 的 梯度 方向 。 从 原点 到 P,P; 的 
垂直 线 具 有 同样 的 方向 ， 因 此 沿 着 P,P; 的 像 
素 在 霍 夫 参数 空间 近似 变换 为 [, 30"]。 沿 着 
直线 段 PP, 的 像素 具有 210° 的 梯度 方向 ， 这 
与 从 原点 到 PP; 的 垂 线 方向 相反 ， 因 此 沿 着 
线段 PiP, 的 像素 近似 变换 为 [-di, 210°]. 


Ww = =—“‘i‘CS™C 


图 10-27 显 示 以 图 像 原 点 为 中 心 在 竞 背景 图 10-26 霍 夫 变 换 可 对 边缘 的 位 置 、 方 向 以 及 梯度 方 
上 的 深 色 环 。 画 出 类 似 图 10-26 所 示 的 霍 大 恋 向 编码 。 沿 着 同一 条 图 像 直 线 ， 从 上 暗 区 域 到 
° = 亮 区 域 的 变换 与 从 亮 区 域 到 暗 区域 的 变换 得 


换 参数 空间 。 到 相反 的 梯度 方向 








w 
一 
N 
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直 带 检测 ”利用 霍 夫 参 数 以 及 从 算法 accurmziate_ lines 得 到 的 点 列表 ， 可 以 检测 更 复杂 
的 图 像 结构 。 方 向 相差 180* 的 两 条 边缘 表明 区 域 可 能 是 
个 条 带 。 另 外 ， 如 果 这 些 点 列 互相 距离 很 近 ， 那 么 则 说 
明 存在 梯度 方向 相反 的 更 大 的 线性 特征 , 如 图 10-17 中 的 J» 
支柱 。 

图 10-28 显 示 白 房子 的 部 分 图 像 ， 图 中 有 一 个 落水 管 。 
图 片 是 在 强烈 光线 下 拍摄 的 ， 其 中 有 很 明显 的 阴影 。 利 
用 梯度 算 子 ， 通 过 accumulate_lines 搜 集 边缘 线段 上 的 像 
素 ， 很 明显 看 见 在 深 色 背景 前 有 一 条 亮 带 ， 对 应 落水 管 ” 图 10.27 深 色 环 以 原点 为 中 心 ， 背 景 
部 位 (两 条 边 是 AB 和 ED )。 落 水 管 的 阴影 * 也 相对 亮 背景 si aang PANN 
产生 一 条 深 色 带 。 


owe: os 
ay 
“ig 


a% 


亮 背景 














带 落 水 管 及 明显 阴影 的 房子 图 像 
(中 ) 由 3 x 3Prewitt 算 子 检测 结果 ， 取 梯度 幅 值 大 于 10% 的 像素 点 
(Av) 抽取 出 的 条 带 和 角 点 





编写 程序 ， 用 霍 夫 变换 检测 条 带 。(a) 用 Sobel 算 子 抽 取 所 有 像素 点 的 梯度 幅 值 和 方向 ， 
后 只 对 高 幅 值 的 像素 进行 变换 。(b) 检测 [d, 外 空 间 中 的 聚 类 。(c) AWRA (ld, OIM 
[d,, 8])， 其 中 9 和 8 相隔 r。(d) 删除 那些 不 是 大 致 轴 对 称 的 聚 类 对 。 
10.5.2 角 点 检测 

重要 的 区 域 角 点 ， 可 通过 检测 满足 下 面 关系 的 边缘 线段 对 El 和 EE, 得 到 。 

(1) 拟 合 边 缘 点 集 E, 和 Es 的 直线 ， 在 实际 图 像 坐标 空间 相交 于 点 [u, vl 

(2) 点 [u,v] 与 集合 B, 和 E, 的 端点 都 接近 。 

(3) El 和 E, 的 梯度 方向 关于 它们 的 对 称 轴 对 称 。 

这 个 定义 只 是 建立 了 “L” 型 的 角 点 模型 ,条件 (2) 排除 了 “T”、“X” 和 “Y” 型 的 角 
点 。 计 算出 的 交点 [ww v] 具 有 亚 像 素 精度 。 图 10- -29 显 示 了 角 点 结构 的 几何 特征 。 一 开始 识别 边 
缘 线段 时 ， 可 用 霍 夫 变换 、 边 界 跟踪 及 直线 拟 合 或 者 任何 其 他 合适 的 算法 来 进行 。 对 满足 以 
上 条 件 的 每 对 (Id, 6,]，[d;, 8])， 将 四 元 组 〈[d, 0], [dn ©] . [u, v], œ) 加 入 候选 角 点 的 
集合 。 角 度 o 为 角 点 处 形成 的 角度 。 这 组 角 点 特征 可 用 于 建立 更 高 层次 的 描述 ， 或 者 直接 用 于 
第 11 章 的 图 像 匹配 或 变形 运算 。 
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从 图 10-2 的 积木 图 像 可 以 很 容易 抽取 出 几 个 角 点 。 但 是 ， 由 于 受 现 半角 度 的 凡响 这 些 
角 点 很 多 是 由 物体 之 间 相 互 遮 挡 引 起 的 ， 而 


交点 。 \ 拱 A lu v] # v] 
AORE DERE te a 


桥 顶部 有 4 个 很 明显 的 实际 角 点 。 图 10-28 中 
口 
三 角形 ABC 的 顶点 都 是 由 光线 和 一 定 观察 角 E ace) fi ae 


度 造成 的 。 最 后 我 们 做 出 如 下 结论 : 虽然 在 ， TA an E 
特殊 问题 领域 经 常用 到 边缘 线段 ， 但 在 一 般 SHAD sein a” 
问题 上 使 用 边缘 线段 ， 存 在 很 大 的 歧义 性 。 ù 
通常 进行 高 层 结构 解释 时 ， 需 要 用 到 应 用 领 ”图 10-29 检测 角 点 ， 角 点 用 具有 适当 关系 的 边缘 线 
域 的 特殊 知识 。 段 对 表示 


ee 


如 何 改变 条 带 检测 算法 ， 使 它 (a) 只 检测 接近 垂直 的 条 带 ，(b) 检测 宽 不 超过 W 的 条 带 。 


10.6 运动 一 致 性 分 割 

我 们 已 经 看 到 ， 在 确定 场景 内 容 和 行为 方面 运动 有 着 非常 重要 的 作用 。 第 9 章 讨 论 了 场景 
变化 检测 和 利用 视频 进行 运动 跟踪 的 方法 。 
10.6.1 时 空 边界 

运动 目标 的 轮廓 可 以 利用 空间 和 时 间 上 的 差异 进行 识别 。 前 面 只 用 了 某 些 特征 的 空间 差 
异 ， 例 如 单 幅 图 像 的 亮度 或 纹理 。 如 果 得 到 场景 的 两 幅 图 像 I[x, y, tA, y, t + At], RAL 
计算 空间 梯度 和 时 间 梯 度 ， 并 将 二 者 结合 起 来 。 可 以 定义 一 个 时 空 梯度 幅 值 (spatio-temporal 
gradient magnitude )， 等 于 空间 梯度 幅 值 和 时 间 梯 度 幅 值 的 乘积 ， 如 公式 (10-27) 所 示 。 一 
旦 算出 图 像 的 STG[]， 所 有 讨论 过 的 轮 廊 抽取 方法 都 可 以 用 。 抽取 的 轮廓 将 是 运动 目标 的 边界 
而 不 是 静态 目标 的 边界 。 

STG[x, y,t] = Magix, y, t] (|I[x, y, t] — I[x, y, t + At]]) (10-27) 

10.6.2 运动 轨迹 聚 类 


在 图 像 序列 的 两 帧 之 间 计 算 运 动向 量 。 可 用 第 9 章 介绍 的 特殊 兴趣 点 或 兴趣 区 域 进行 计算 。 
根据 图 像 位 置 、 速 度 和 方向 对 运动 向 量 聚 类 可 以 实现 


区 域 分 割 ， 如 图 10-30 所 示 。 对 平移 目标 聚 类 应 能 得 到 

很 好 的 效果 ， 因 为 目标 上 的 点 应 该 具有 相同 的 速度 。 ees d as 

通过 更 复杂 的 分 析 ， 还 可 检测 同时 旋转 和 平移 的 目标 。 YY 7 Tes 
图 10-31 显 示 手 语 应 用 情况 ， 其 中 双手 运动 的 目的 ee 六 部/ 

是 为 了 交流 。 研 究 目标 是 将 美国 手语 信息 输入 到 机 器 ie ad 

中 。 图 中 只 给 出 了 一 个 序列 的 几 帧 图 像 ， 显 示 了 手语 La aM 

者 持续 大 约 2s 的 手势 变化 情况 。 图 10-31 所 示 的 结果 ， "Siac 

在 帧 内 采用 颜色 分 割 ， 帧 间 采 用 运动 分 割 产生 的 结果 。 S 


运算 步骤 参见 算法 10.10， 关 于 产生 图 10-31 的 算法 细 TOO BANIE WE AN ee, 
节 ， 可 以 参考 Yang 和 Ahuja (1999) 发 表 的 论文 。 算 ae ehh tocar ed 
法 的 前 几 步 适用 于 不 同 的 图 像 序列 。 对 每 幅 图 像 作 颜 tsa i 
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色 分 割 ， 在 不 同 帧 之 间 进 行 分 割 区 域 匹配 。 匹 配 结果 用 于 计算 前 后 图 像 对 的 密集 运动 场 ， 然 
后 对 运动 场 进行 分 割 ， 以 推导 单个 像素 的 运动 轨迹 。 把 运动 场 分 割 成 包含 统一 运动 的 区 域 ， 
这 时 我 们 才 利 用 相关 的 领域 知识 ， 识 别人 手 和 人 脸 。 第 6 章 提 到 的 皮肤 颜色 模型 用 来 识别 皮肤 
区 域 ， 认 为 其 中 最 大 的 一 块 皮肤 区 域 是 人 脸 。 针 对 所 有 的 图 像 帧 跟踪 两 手掌 区 域 的 中 心 ， 这 
两 个 轨迹 可 用 来 识别 所 做 的 手势 。Yang 和 Ahuja (1999) 对 40 种 美国 手语 的 多 个 样 例 做 了 实验 ， 
结果 证 实 识别 率 超过 90% 。 





a) 帧 14 b) 帧 16 c) 帧 19 d) 帧 22 


(I) ASL 手 语 “cheerleader” 的 55 帧 视频 序列 中 的 4 帧 





owa 日 帧 16 2) 帧 19 h) 帧 22 


(II) 图 像 序列 cheerleader 的 运动 分 割 
(同一 运动 区 域 的 像素 用 同样 的 灰 度 级 别 显 示 ， 不 同 区 域 用 不 同 的 灰 度 级 别 显示 ) 


ia a 
i) 帧 14 j) 帧 16 k) 帧 19 1) 帧 22 
(LIT) 利用 颜色 和 大 小 从 图 像 序列 cheerleader 中 抽取 的 人 头 和 手掌 区 域 
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X-axis X-axis X-axis X-axis 
m) 帧 14~16 n) 帧 16~19 ©) 帧 19~22 p) 帧 22~25 


(IV) 从 ASL 手 语 “cheerleader” 分 割 图 中 抽取 手势 运动 轨迹 
(由 于 显示 所 有 像素 的 轨迹 ， 结 果 形 成 一 个 团 儿 ) 


图 10-31 从 图 像 序列 抽取 运动 轨迹 (图 片 由 Ming-Hsuan Yang 和 Narendra Ahuja 提 供 ) 
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算法 10.10 “利用 颜色 和 运动 跟踪 ASL 手 势 的 算法 。(Motivated by Yang and Ahuja 
(1999)) 

输入 ASL 手 语 视频 序列 。 

输出 两 个 手掌 的 运动 轨迹 。 

1. 利用 颜色 对 序列 的 每 一 帧 划 进行 区 域 分 割 。 

2. 根据 颜色 和 和 邻 域 匹配 每 对 图 像 (L,I, 1) 的 各 区 域 。 


3. 计算 IT 区 域 与 1 对 应 区 域 相 匹配 的 仿 射 变换 。 

4. 利用 匹配 区 域 的 变换 帮助 计算 单个 像素 的 运动 向 量 。 

5. 利用 运动 一 致 性 和 图 像 位 置 对 上 面 得 到 的 运动 场 进行 分 割 。 
6. 利用 皮肤 颜色 模型 识别 两 手掌 区 域 和 人 脸 区 域 。 

7. 合并 前 面 分 割 得 到 的 邻近 皮肤 区 域 。 

8. 用 椭圆 逼近 手掌 和 人 脸 。 

9. 跟踪 整个 序列 的 椭圆 中 心 ， 建 立 运动 轨迹 。 

10. (利用 双手 轨迹 识别 手势 。) 








已 知 参数 (Id, 0], [d> 9,]) 定义 的 两 条 直线 ，(a) 推导 交点 [x, AÑ, (b) 推导 对 称 


轴 [dw OIA» 





得 到 含 运动 目标 的 前 后 两 帧 场景 图 像 ， 利 用 公式 (10-27) 计算 时 空 图 像 。( 最 好 两 帧 图 
像 取 自 运动 JPEG 视 频 序列 ， 或 者 用 平台 扫描 仪 数字 化 深 色 剪纸 图 ， 轻 轻 移 动 剪纸 得 到 第 二 幅 
图 像 。) 


针对 ASL 应 用 情况 ， 说 明 如 何 修改 算法 10.10， 使 其 更 加 简单 快速 。 






假设 有 两 个 运动 轨迹 Pj, j = 1 …, N 和 Qu 大 = 1,… M， 其 中 Pj 和 Q. 是 时 间 顺 序 一 致 的 2D 点 。 
设计 算法 匹配 这 两 条 轨迹 ， 当 两 轨迹 相同 时 输出 1.0; 当 二 者 非常 不 同时 ， 输 出 0.0。 注 意 M 和 
N 可 能 不 相等 。 


10.7 参考 文献 
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第 11 章 2D 匹 配 


这 一 章 研 究 如 何在 图 像 与 地 图 、 图 像 与 模型 、 图 像 与 图 像 之 间 建 立 对 应 关系 ， 以 及 如 何 
利用 这 些 对 应 关系 。 其 中 的 匹配 算法 只 讨论 二 维 空间 情况 。 在 第 14 章 中 ， 将 把 匹配 算法 推广 
到 3D-2D 匹 配 以 及 3D-3D 匹 配 。 在 很 多 实际 应 用 中 ，2D 匹 配 就 足够 了 ， 而 不 需要 进行 完全 3D 
分 析 。 

考虑 这 样 一 个 问题 : 一 个 小 镇 为 了 制定 发 展 计 划 或 者 为 了 征 税 的 目的 ， 要 对 全 镇 土地 的 
使 用 进行 清查 。 于 是 在 一 个 晴朗 的 日 子 里 ,一 架 飞 机 受命 拍摄 全 镇 土地 的 航 测 图 像 。 然 后 把 
这 些 图 像 与 相应 地 区 的 最 新 地 图 进行 比较 ， 参 考 航 测 图 像 对 旧地 图 进行 修改 从 而 得 到 更 新 的 
地 图 。 此 外 ， 为 了 标明 建筑 物 、 道 路 、 油 井 等 的 位 置 ， 以 及 指明 不 同 田地 里 的 作物 类 型 ， 也 
要 对 其 他 数据 库 进 行 更 新 。 这 个 工作 完全 可 以 通过 手工 完成 ， 但 是 目前 普遍 使 用 计算 机 来 实 
现 。 第 二 个 例子 来 自 医疗 领域 。 医 疗 上 经 常 需 要 对 病人 心肺 中 的 血液 流动 情况 进行 检查 。 首 
先 拍 报 一 幅 病 人 的 X 光 图 像 ， 然 后 在 病人 血 流 中 注射 特殊 的 染色 剂 ， 再 拍 一 幅 X 光 图 像 。 如 果 
不 是 因为 身体 其 他 组 织 如 骨头 等 引起 的 噪声 ， 第 二 幅 图 像 就 能 够 揭示 血液 的 流动 情况 。 如 果 
用 第 二 幅 图 像 减 去 第 一 幅 图 像 ， 就 可 以 减 小 噪声 和 人 为 和 干扰， 而 将 重点 集中 在 染色 部 分 的 变 
化 上 上。 但 是 ,在 进行 上 述 运算 之 前 ， 对 第 一 幅 图 像 要 进行 几何 变换 (geometrically 
transformed) 或 变形 (warped) 处 理 ， 以 补偿 身体 微小 运动 的 影响 ， 这 些 运动 是 由 于 身体 位 
置 变化 、 心 脏 运 动 、 呼 吸 等 引起 的 。 

11.1 2D 数 据 配 准 

本 章 用 到 了 一 个 简单 通用 的 数学 模型 ， 该 模型 也 可 以 用 于 其 他 情况 。 公 式 (11-1) 和 图 
11-1 显 示 出 模型 M 上 的 点 和 图 像 I 上 的 点 之 间 的 可 逆 映 射 关 系 。 事 实 上 ，M 和 I 都 可 以 是 任意 的 
2D 坐 标 空间 ， 可 以 代表 一 张 地 图 、 一 个 模型 或 一 幅 图 像 。 

Mix, y] = I[g(x, y), h(x, y)] 


Iir, c] = MIg™' (r, c), hiir, €)] (11-1) 


定义 78 ”从 一 个 2D 坐 标 空间 到 另 一 个 2D 坐 标 空间 的 映射 称 为 2D 变 换 (2D 


transformation ) 。 


公式 (11-1) 所 定义 的 变换 ， 有 时 被 称 
为 空间 变换 、 几 何 变换 或 变形 。( 有 人 用 变 
形 这 个 词 专 指 非 线性 变换 )。 函 数 g 和 4 在 模 
型 点 [x，] 和 图 像 点 [r，c] 之 间 建 立 起 对 应 关 
系 ， 这 样 模 型 中 的 特征 点 就 可 以 在 图 像 中 找 
到 它 的 对 应 位 置 。 假 设 映射 是 可 逆 的 ， 则 可 
以 利用 逆 映 射 进行 反方 向 计算 。 在 税务 登记 “图 11-1 2D 空 间 M 和 /之 间 的 映射 。M 可 以 代表 一 个 模 
问题 中 ， 可 以 通过 这 样 的 映射 函数 把 地 图 上 型 而 I 可 以 代表 一 幅 图 像 ， 但 一 般 来 讲 ， 二 者 
的 特征 边界 转换 到 航 测 图 像 中 。 然 后 就 可 以 多 可 以 是 任意 的 2 空间 
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对 代表 特殊 特征 的 图 像 区 域 进行 分 析 ， 以 规划 新 的 建筑 设施 或 种 植 新 的 作物 类 型 。( 当前 ， 这 
个 分 析 工 作 很 可 能 是 由 人 工 借助 交互 式 图 形 工作 站 完成 的 。) 在 医疗 问题 中 ， 放 射 学 家 就 能 够 
利用 该 函数 分 析 差 分 图 像 J[r,，cs]-18(72, c2), Ara cs)]: 这 时 映射 函数 所 起 的 作用 就 是 把 两 幅 
图 像 中 的 点 对 应 起 来 。 

定义 79 ”关于 相同 场景 、 近 似 视点 的 两 幅 图 像 ， 对 图 像 点 进行 几何 变换 ， 使 得 两 幅 

图 像 中 的 对 应 特征 点 在 变换 后 具有 相同 的 坐标 ， 这 个 过 程 就 是 称 为 图 像 配 准 (Image 

registration ) 。 

男 一 个 常见 而 且 重 要 的 应 用 是 ， 基 于 另 一 幅 图 像 上 的 采样 点 建立 新 的 图 像 ， 这 实际 上 不 
是 匹配 运算 。 如 图 11-2 所 示 的 例子 ， KARMA AR POOH AL. REREAD 
内 容 只 是 原 图 像 1 的 一 个 子 集 ， 但 的 像素 数 可 以 与 1 的 像素 数 一 样 多 ， 其 至 可 以 更 多 。 

在 实际 应 用 中 这 个 理论 存在 几 个 问 
题 。 函 数 g 和 h 的 形式 是 什么 ”他 们 是 否 
线性 、 是 否 连 续 等 等 。 一 个 空间 中 的 直 
线 映射 到 另 一 个 空间 中 是 直线 还 是 曲 
线 ? 在 这 两 个 空间 中 ， 同 一 点 对 之 间 的 
距离 是 否 相 同 ? 更 重要 的 是 ， 我 们 如 何 
应 用 不 同 的 函数 特性 得 到 需要 的 映射 ? ells 
模型 或 图 像 的 2D 空 间 是 连续 的 还 是 离散 ”图 11-2 (ER) 第 8 章 中 用 过 的 标志 牌 场景 图 像 ，( 右 图 ) 
的 ? 如 果 至 少 其 中 之 一 是 数字 图 像 , 那 对 原 图 采样 变换 后 剪 切 出 的 新 图 像 
么 量化 效应 将 会 对 精度 和 显示 质量 产生 影响 。( 在 图 11-2 的 右边 图 像 中 就 存在 量化 效应 。) 












如 何 对 图 11-2 右 侧 的 图 像 进行 增强 ， 以 减弱 量化 效应 或 者 阶梯 效应 的 影响 ? 
11.2 点 的 表示 

本 章 我 们 专门 讨论 2D 空 间 的 点 运算 。 在 第 13 章 中 ， 将 把 有 关 定 义 及 结论 推广 到 3D 空 间 。 
其 中 大 多 数 推广 都 是 容易 理解 的 ， 当 然 不 是 全 部 。 对 同学 们 来 说 ， 在 学 习 3D 空 间 更 复杂 的 运 
算 之 前 ， 能 够 掌握 基本 概念 和 基本 表达 方法 是 非常 重要 的 。 一 个 2D 点 有 两 个 坐标 ， 通常 用 行 
HEP = [x, RIEP = [x，y] 来 表示 。 我 们 采用 列 向 量 表示 ， 即 与 多 数 工程 图 书 中 的 表 
达 方 式 保持 一 致 ， 当 对 点 P 做 T 变 换 时 ,表达 形式 上 将 T 写 在 左边 ,而 将 P 写 在 右边 。 为 了 方便 ， 
书 中 经 常用 行 向 量 表示 一 个 点 ， 即 省 略 了 转 置 符号 !， 各 坐标 之 间 用 逗号 分 开 。 当 用 列 向 量 表 
示 点 时 ， 各 坐标 上 下 排列 ， 就 不 需要 再 用 逗号 分 开 了 。 


= t_|% 
P = [x, y} = k] 


有 时 我 们 需要 根据 特征 点 的 类 型 对 一 个 点 做 标记 。 例 如 ， 一 个 点 可 能 是 一 个 孔 的 中 心 点 ， 
一 个 多 边 形 的 顶点 ， 或 者 是 算出 来 的 两 线段 延长 线 的 交点 。 在 本 章 稍 后 讨论 的 自动 匹配 算法 
中 ， 有 效 地 利用 了 点 的 类 型 。 

11.2.1 参考 坐标 系 
点 的 坐标 总 是 相对 于 某 个 坐标 系 。 通常 在 进行 环境 分 析 时 要 用 到 几 个 坐标 系 ， 如 在 第 2 章 
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末 所 讨论 的 内 容 。 当 涉及 多 个 坐标 系 时 ， 用 上 角 标 来 表示 点 坐标 所 相对 的 坐标 系 。 
定义 80 ”如 果 P 是 一 个 特征 点 而 C 是 一 个 参考 坐标 系 ， 那 么 我 们 用 守 , 来 表示 该 点 在 坐 
标 系 C 中 的 坐标 。 


11.2.2 FRE 

很 快 我 们 就 会 明白 ， 无 论 是 公式 表达 还 是 计算 机 运算 ， 利 用 点 的 齐 次 坐标 (homogeneous 
coordinate) 都 是 很 方便 的 ， 尤 其 是 进行 仿 射 变换 时 。 

定义 81 2D 点 P = [x,y] 的 齐 次 坐标 是 [sx, sy, s] ， 其 中 s 是 比例 系数 ， 一 般 为 1.0。 


最 后 ， 需 要 注意 的 是 坐标 系 的 习惯 表示 以 及 图 像 显示 坐标 系 的 特点 。 本 章 中 绘 出 的 图 表 
坐标 系 ， 与 数学 课本 上 的 习惯 保持 一 致 ， 即 第 一 个 坐标 (x 或 u 或 r) 自 原点 向 右 延 伸 ， 第 二 个 
坐标 (y 或 v 或 c<) 自 原点 向 上 延伸 。 但 是 图 像 显 示 程 序 在 显示 一 幅 n 行 m 列 的 图 像 时 ， 第 一 行 
(4tr=0) 在 顶部 而 最 后 一 行 ( 行 r= n-1) 在 底部 ， 因 此 7 自 项 向 下 延伸 而 c 自 左 向 右 延 伸 。 在 
代数 上 这 不 会 带 来 问题 ， 但 有 了 时 会 使 我 们 感觉 不 习惯 ， 因 为 显示 出 来 的 图 像 需 要 在 心里 逆 时 
针 旋 转 90" 以 便 和 数学 中 的 传统 方向 一 致 。 


11.3 仿 射 映射 函数 

有 一 大 类 空间 变换 可 以 用 一 个 矩阵 乘 以 点 的 齐 次 坐标 来 表示 。 这 里 只 做 简要 性 介绍 ， 但 
涉及 的 内 容 相当 广泛 ， 更 详细 的 介绍 可 以 查阅 参考 文献 中 列 出 的 计算 机 图 形 学 或 机 器 人 学 方 
面 的 教材 。 向 量 空间 的 特点 可 以 参考 第 5 章 的 内 容 。 
11.3.1 缩放 

缩放 是 常见 的 一 种 图 像 变 换 。 同 比例 缩放 以 同样 的 比例 系数 改变 所 有 的 坐标 ， 或 是 等 量 
改变 所 有 目标 的 尺寸 。 在 图 11-3 中 把 对 2D 点 P = [1，2] 进 行 2 倍 放大 ， 得 到 新 的 点 P' = [2，4]。 
对 三 角形 的 三 个 质点 进行 2 倍 放大 ， 就 会 使 三 角形 大 小 变 为 原来 的 2 倍 。 缩 放 是 线性 变换 
(linear transformation), ， 这 意味 着 在 2D 欧 几 里 得 空间 ， 对 点 的 缩放 可 以 通过 两 个 基 向 量 的 缩 
BRA. Wan, (1, 2] = 1[1, 0] + 2[0, 1], LA Y 
及 2[1, 2] = 2(1[1, 0] + 2[0, 1]) = 2[1, 0]+4[0, 
1]=[2, 4]。 公 式 (11-2) 表明 ， 对 2D 点 的 缩放 
可 以 通过 乘 上 一 个 简单 的 矩阵 来 表示 ， 这 个 矩 
阵 对 角 线 上 的 数值 就 是 缩放 系数 。 第 二 个 例子 
是 更 一 般 的 情况 ， 即 x 和 y 单 位 向 量 上 的 缩放 系 
数 不 同 ， 见 公式 (11-3)。 回 忆 第 2 章 中 讲 过 的 
5 种 坐标 系 , 以 mm 为 单位 的 实际 图 像 点 的 坐标 ， 
转换 到 以 行 、 列 为 单位 的 像素 图 像 点 的 坐标 ， [0, 0} 
就 属于 这 类 缩放 变换 。 对 正方 形 像素 的 摄像 机 
KP, c,= c = c， 但 对 于 电视 标准 的 摄像 机 来 


讲 ，c, 与 c, 之 比 是 4/3。 
x’ _ ye Ol} x _ | ex] _ x 
» ~ (0 lb1=[8] = | (11-2) 







P’ = [2,4] 
JON 缩放 系数 为 2 


“P= [1,2] 


[4, 0] (8, 0] x 
图 11-3 对 2D 向 量 上 点 的 坐标 进行 2 倍 放大 
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L2 对 非 正方 形 摄像 机 像素 进行 缩放 变换 
假设 一 个 正方 形 的 CCD 芯 片 边 长 0.5 英 寸 ， 在 有 效 区 域内 含 480 x 640 像 素 。 给 出 一 个 缩放 
变换 矩阵 ， 把 像素 坐标 [,，c] 转 换 成 英寸 坐标 [ex, y]。 基 中 像素 图 像 中心 [0,0] 与 英寸 图 像 中 心 
[0,0] 对 应 。 根 据 你 的 变换 和 矩阵， 第 100 行 200 列 的 像素 中 心 的 整数 坐标 是 什么 ? 
11.3.2 旋转 
另 一 种 常见 的 运算 是 2D 空 间 中 点 的 旋转 。 图 11-4 的 左边 显示 的 是 将 2D 点 P = [x, y] 绕 原点 
逆 时 针 转 过 6 角 后 得 到 一 个 新 的 点 P' = [x y]。 公 式 (11-4) 表明 ， 通 过 乘 上 一 个 简单 的 矩阵 
可 以 方便 地 表示 出 2D 点 绕 原 点 的 旋转 。 与 任何 线性 变换 一 样 ， 可 以 把 矩阵 的 各 列 看 成 是 对 基 
向 量变 换 的 结果 (图 11-4 中 的 右边 )。 其 他 任何 向 量 的 变换 都 可 以 表示 为 基 向 量 的 线性 组 合 。 
Rel[x, y]) = Re(x[1, 0] + y[0, 1]) 
= xRo([1, 0]) + yRe([0, 1]) = x[cos6, sind] + y[—sing cos] 
= [xcosg — ysing, xsin + ycosg] 


x’| _ |cos@ —sin@][x] [xcos6 — ysing 
y| | sin@ cos@ |} y| — | xsin@ + ycos6 









(11-4) 


2D 旋 转 可 以 围绕 2D 平 面 上 的 任意 点 ， 而 并 非 一 定 是 参考 坐标 系 的 原点 。 具 体 见 后 面 的 习题 。 


Y Y 





[cos 9, sin 6] 
aR” @、 






[1, 0] 
点 P 旋 转角 度 6 基 向 量 旋转 角度 9 


图 11-4 2D 点 的 旋转 通过 基 向 量 的 旋转 表示 


(a) 在 X7 坐 标 系 中 画 出 3 个 点 [0, 0]、[2, 2] 和 [0, 2]。(b) 利用 公式 (11-2) 对 3 个 点 进行 
0.5 倍 缩放 并 画 出 结果 。(c) 在 另 一 张 图 上 ， 画 出 3 个 点 按 公式 (11-4) 绕 原 点 旋转 90* 的 结果 。 
(d) 设 缩放 矩阵 是 S， 旋 转 和 矩阵 是 R， 设 SR 是 矩阵 $ 左 乘 矩阵 R 的 结果 。 分 别 用 SR 和 RS 对 3 个 点 
进行 变换 ， 二 者 一 样 吗 ? 
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11.3.3 正 交 和 标准 正 交 变换 * 
定义 82 如果 一 组 向 量 中 的 所 有 向 量 两 两 正 交 ， 也 就 是 说 它们 的 标量 积 为 零 ， 则 称 
这 组 向 量 是 正 交 (orthogonal) 的 。 


定义 83 ”如 果 一 组 向 量 是 正 交 集 ， 并 且 所 有 向 量 都 具有 单位 长 度 ， 则 称 这 组 向 量 是 
标准 正 交 (orthonormal) 的 。 


旋转 变换 不 改变 基 向 量 的 长 度 及 其 正 交 性 。 无 论 是 定性 理解 还 是 代数 推导 都 可 以 得 出 这 
个 结论 ， 于 是 直接 就 可 以 得 出 ， 旋 转变 换 后 两 点 之 间 的 距离 与 变换 前 两 点 之 间 的 距离 是 相同 
的 。 刚 体 变换 (rigid transformation) 也 有 类 似 的 性 质 ， 它 主要 由 旋转 和 平移 组 成 。 刚 体 变换 
通常 针对 刚性 物体 或 者 用 于 坐标 系 变 换 。 非 1.0 倍 的 同比 例 缩放 使 向 量 长 度 发 生变 化 ， 但 两 向 
量 间 的 夹 角 保 持 不 变 。 目 标 上 具有 不 随 其 位 置 或 者 摄像 机 位 姿 而 变化 的 一 些 图 像 特 征 ， 在 寻 
找 这 些 不 变 特征 时 ， 向 量 长 度 和 夹 角 问 题 是 要 考虑 的 重要 问题 。 
11.3.4 平移 r 

点 的 坐标 常常 需要 移动 一 个 常量 ， 这 相当 于 改变 坐标 系 的 原点 。 例 如 对 一 幅 像素 图 像 的 
行 - 列 坐标 进行 平移 ， 变 换 成 地 图 的 纬度 -经 度 坐 标 。 因 为 平移 不 能 把 原点 [0，0] 仍 然 映 射 成 原 
点 ， 所 以 不 能 用 缩放 和 旋转 变换 所 用 的 简单 2 x 2 矩阵 模型 ， 也 就 是 说 平移 不 是 线性 变换 。 我 
们 要 把 变换 矩阵 扩展 到 3 x 3 维 以 进行 平移 和 其 他 运算 ， 相 应 地 要 在 点 向 量 上 增加 另 一 个 坐标 
以 得 到 齐 次 坐标 。 一 般 这 个 附加 坐标 值 取 为 1.0， 但 有 时 使 用 其 他 的 值 可 能 会 更 方便 些 。 

P = [x, y] > [wx, wy, w] = [x, y,1] forw=1 


公式 (11-5) 中 所 示 的 矩阵 乘法 ， 可 以 用 作对 点 [x，y] 进 行 平移 D 的 模型 ， 即 [x', y] = 
D([x, y]) = [x + xo Y + yolo | 
x! E Oa X 十 X0 
YY|=|0 1 ylly|=|y+y (11-5) 
1 0 0 1||1 1 


习题 11.4 绕 一 点 的 旋转 


求 使 平面 绕 点 [5, 8] 旋 转 z2 角 度 的 3 x 3 矩阵。 
提示 : 首先 推导 把 点 [5，8] 移 动 到 新 坐标 系 原点 的 变换 矩阵 D_。_*。 我 们 要 求 的 矩阵 由 
PssRwD-s,-s 组 合 而 成 。 对 3 个 点 [5, 8]. [6, 8]. (5, 9] 进 行 变换 ， 验 证 所 求 的 矩阵 是 正确 的 。 


习题 11.5 关于 坐标 轴 的 反射 


关于 y 轴 的 反射 (reflection) 变换 是 把 基 向 量 [1, 0] 映 射 到 [-1, 0]， 把 基 向 量 [0, 1] 映 射 到 
[0, 1]。(a) 构造 表示 该 反射 变换 的 矩阵 。(b) 对 3 个 点 [1, 1]、[1, 0]、[2, 1] 进 行 变换 ， 验 证 所 
求 的 矩阵 是 正确 的 。 
11.3.5 旋转 、 缩 放 和 平移 

图 11-5 显 示 的 是 一 种 常见 的 情况 : 正方形 像素 摄像 机 垂直 向 下 正 对 工作 台 平 面 W[x， yl, 
拍 到 一 幅 图 像 Ir，ec]。 需 要 一 个 公式 把 以 行 和 列 为 单位 的 像素 坐标 [r， c] 转 换 到 以 mm 为 单位 的 
坐标 区， 习 。 这 可 以 通过 公式 (11-6) 实现 ， 把 旋转 R、 缩 放 S、 平 移 D 组 合 起 来 ， 表示 为 "P, = 
D, pro S ReP;。 有 四 个 参数 决定 行 - 列 坐 标 到 工作 台 x - ?坐标 的 映射 : 旋转 的 角度 8、 把 像素 变 





Ww 
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换 到 mm 的 比例 系数 *， 以 及 两 个 位 移 量 zw 和 yo。 由 两 个 控制 点 (control point) P, 和 了 P, 的 坐标 可 


w 


以 算出 这 四 个 参数 。 这 些 点 由 工作 空间 中 标 Y, 
记 清 晰 而 且 容 易 测 量 的 特征 点 构成 ， 并 且 在 
图 像 中 要 能 够 很 容易 地 观察 到 ， 例 如 “+” 
号 。 在 土地 规划 应 用 中 ， 常 常 把 道路 的 交 又 
点 、 建 筑 物 的 拐角 、 河 流 的 急 转 弯 处 等 用 作 
控制 点 。 要 强调 的 重点 是 ， 同 一 特征 点 如 P,， 
可 以 用 两 个 (或 更 多 ) 的 不 同 坐 标 向 量 表示 ， 
一 个 是 与 I 有 关 的 行 - 列 坐 标 ， 另 一 个 是 与 W 
有 关 的 mm 单位 x - y 坐 标 。 把 这 些 表示 方法 
分 别 记 为 了 和"”P,。 例 如 ， 在 图 11-5 中 ， 有 





中, = [100，60] 和 *P, = [200，100]。 O, 10 200 30 400 | 
定义 84 ”控制 点 (control point) 是 指 ”图 11-5 正方 形 像素 摄像 机 垂直 向 下 正 对 工作 台 拍 取 
可 以 清晰 分 辩 并 易于 测量 的 点 ， 通过 它 的 图 像 。 要 对 特征 点 的 图 像 坐 标 进行 旋转 、 


名 S73 ial iy 示 
们 建立 不 同 坐 标 空间 之 间 的 对 应 关系 。 缩放 和 平移 ， 才 能 得 到 工作 台 空 间 的 坐标 


给 出 点 已 在 两 个 坐标 系 中 的 坐标 ， 由 矩阵 公式 (11-6) 可 以 得 到 两 个 方程 ， 方 程 中 含 4 个 


未 知 参数 。 
Xw 1 0 xlls 0 O]]cos@ —sing O] fx; 
Yw| =|O 1 ll0s Of] sind cosg Of] y; (11-6) 
1 00 1//0 0 1 0 0 1 1 


Xw = Xis COSO — yi s Sind + xo (11-7) 

Yw = Xis SiNO + y; 5 COSO + yo (11-8) 

利用 点 P; 的 坐标 可 得 到 另外 两 个 方程 。 通 过 解 这 些 方程 可 以 求 出 变换 公式 中 的 4 个 参数 。 

其 中 6 独立 于 其 他 参数 ， 可 以 按 以 下 方法 很 容易 解 出 来 : 首先 ， 向 量 PP, 在 I 中 的 方向 可 以 由 6 

= arctan(('y, = 'y,)/('x, 一 XDE; 然后 ， 在 W 中 向 量 的 方向 可 由 6, = arctan(("y, — "yx 一 

“zi)) 确 定 。 旋 转角 就 是 这 两 个 角度 之 差 9 = 6, - 9。 确定 了 96 之后， 方程 中 的 所 有 正弦 和 余 攻 

项 都 可 以 求 出 ,于 是 产生 3 个 方程 ， 其 中 含 3 个 未 知 量 ， 由 这 3 个 方程 可 以 很 容易 解 出 :和 x6、y。。 
读者 通过 习题 11.6 完 成 这 个 求解 过 程 。 


习题 11.6 把 图 像 坐标 化 为 工作 台 坐 标 


环境 如 图 11-5 所 示 。( 如 视觉 系统 需要 把 物体 的 位 置 通知 给 搬运 机 器 人 。) 以 矩阵 的 形式 
给 出 图 像 坐 标 [x, y, 1] 到 工作 台 坐 标 [x,，y,，1] 的 变换 关系 。 利 用 控制 点 P, = [100，60]、"P， 
= [200，100]、 焉 ;, = [380，120]、*P, = [300, 200] 计 算 4 个 参数 。 
11.3.6 仿 射 变形 实例 

通过 选择 3 个 点 ， 可 以 很 容易 地 从 数字 图 像 中 抽取 出 平行 四 边 形 区 域 来 。 第 一 个 点 决定 要 
创建 输出 图 像 的 原点 ， 第 二 和 第 三 个 点 决定 平行 四 边 形 边 的 极点 。 输 出 图 像 是 根据 输入 图 像 
采样 点 建立 的 任意 大 小 的 矩形 像素 阵列 。 图 11-6 是 基于 该 思想 的 程序 执行 的 结果 。 为 了 生成 
中 间 的 那 幅 图 像 ， 由 选取 的 3 个 点 确定 的 两 轴 不 是 正 交 的 ， 因 此 在 输出 图 像 中 出 现 了 切 变 。 这 
个 切 变 可 以 通过 以 下 方式 去 除 ， 即 从 中 间 那 幅 图 中 抽取 第 三 幅 图 ， 使 新 的 采样 轴 与 倾斜 的 轴 
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对 齐 。 图 11-7 是 另 一 个 例子 ， 从 20 美 元 的 钞票 上 抽取 出 安德鲁 - ATM (Se 
11-7)。 在 这 两 个 例子 中 ， 尽 管 都 只 抽取 出 了 输入 图 像 的 一 部 分 ， 但 输出 图 像 包 含 的 像素 数量 
与 输入 图 像 相 同 。 





图 11-6 


( 左 图 ) 128 x 128 的 网 格 数字 图 像 
(中 图 ) 经 仿 射 变形 抽取 的 128 x 128 的 图 像 ， 仿 射 变形 由 左 侧 图 像 中 的 3 个 点 确定 
( 右 图 ) 对 中 间 图 像 进行 部 分 矫正 后 的 128 x 128 图 像 


[X25 yz] [xi yi] 





图 11-7 利用 带 切 变 的 仿 射 映射 从 20 美 元 钞票 上 抽取 的 安德鲁 . 杰克 逊 扭 曲 的 脸 部 
生成 图 11-7 脸 部 图 像 的 程序 ， 利 用 用 户 选 取 的 3 个 点 对 平行 四 边 形 区 域 进行 变换 。 输 出 图 
fin x m 或 512 x 512 像 素 ， 像 素 坐 标 表示 为 [r，c]。 对 于 输出 图 像 中 的 每 个 像素 [r，c]， 在 像 
素 [x，y] 处 对 输入 图 像 的 值 进行 采样 ， 像 素 [x, y] 通 过 变换 公式 (11-9) 计算 得 到 。 公 式 中 的 第 
一 种 形式 是 基于 基 向 量 的 直观 表达 形式 ， 公 式 中 的 第 二 种 形式 是 与 第 一 种 形式 等 价 的 标准 表 


NE 

Y yo n vi yo m J2 Yo 
x (xı — xo)/n (x2—xo)/m xolfr (11-9) 
y| = |O — yo)/n (O2-—yo)/m yollec 
1 0 0 1 1 


DEYE Ax 四 是 根据 沿 新 轴 方 向 的 新 单位 向 量 定义 的 ， 这 个 新 轴 由 用 户 的 选择 点 确 
定 。 计 算出 的 坐标 [5， 习 必须 经 过 取 整 处 理 才 能 得 到 整数 值 的 像素 坐标 ， 与 数字 图 像 I 的 像素 
位 置 对 应 。 如 果 x 或 ?中 的 任何 一 个 超出 了 范围 ， 则 对 应 输出 点 就 被 设置 为 黑 ， 这 种 情况 下 2I[r， 
ce] = 0; 否则 3[r，c] = IIx， 习 。 在 杰克 逊 脸 部 的 右上 方 可 以 看 到 一 个 黑色 的 三 角形 ， 这 是 由 
于 采样 平行 四 边 形 超出 了 20 美 元 钞票 输入 图 像 的 范围 所 造成 。 

11.3.7 目标 识别 与 定位 实例 
这 个 例子 是 计算 变换 矩阵 ， 对 图 11-8 中 左边 所 示 的 目标 模型 与 右边 的 目标 图 像 进行 匹配 。 
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ie A ARERR RE RRR RAR = ANEEL. RARR A AD, y RS R 
中 的 点 [xs， 妇 。 假 设 成 像 环 境 是 受 控 的 ， 已 经 通过 缩放 对 图 像 坐 标 进行 了 变换 并 生成 图 示 的 & - 
坐标。 现在 仅 需要 两 个 图 像 点 就 可 以 推出 旋转 和 平移 矩阵 ， 该 旋转 和 平移 将 使 模型 上 的 点 与 
图 像 上 的 点 对 应 起 来 。 表 11-1 和 表 11-2 中 所 示 的 是 模型 和 图 像 中 点 的 位 置 以 及 这 些 点 之 间 的 距 
离 。 假 设 对 应 的 点 对 是 (A, H) 和 (8，A 朋 ;)， 利 用 这 一 对 对 应 点 来 推导 变换 关系 。 注 意 这 些 
对 应 点 对 与 已 知 的 点 间距 离 关系 是 一 致 的 。 我 们 将 在 11.5 节 讨论 做 出 这 些 假定 的 算法 。 


Y V 


检测 到 的 特征 














(ER) 物体 模型 
HR) 在 图 像 上 检测 到 的 二 个 孔 


表 11-1 模型 中 点 的 位 置 和 各 点 间 的 距离 ( 取 孔 的 中 心 坐标 ) 





点 坐标 到 A 的 距离 到 B 的 距离 。 ”到 C 的 距离 。 ”到 D 的 距离 到 E 的 距离 
A (8, 17) 0 12 15 37 21 
B (16, 26) 12 0 12 30 26 
C (23, 16) 15 12 0 22 15 
D (45, 20) 37 30 22 0 30 
E (22, 1) 21 26 15 30 0 





表 11-2 图 像 中 点 的 位 置 和 各 点 间 的 距离 ( 取 孔 的 中 心 坐标 ) 





点 坐标 到 HI 的 距离 到 H, 的 距离 到 H; 的 距离 
H, (31, 9) 0 21 26 
H, (10, 12) 21 0 12 
H, (10, 24) 26 12 0 





模型 中 由 4A 到 8 的 向 量 方向 是 6, = arctan(9.0/8.0) = 0.844, AiR se RRHH i 
方向 是 = arctan(12.0/0.0) = 1/2 = 1.571。 因 此 ， 旋 转角 6 = 0.727 绝 度 。 利 用 公式 (11-6), 将 
匹配 点 的 坐标 即 模 型 中 点 4 和 图 像 中 点 ;的 坐标 代入 公式 ， 将 得 到 公式 (11-10)， 其 中 uw、vo 
是 图 像 面 上 未 知 的 平移 成 分 。 注 意 sin96 和 cos9 的 值 实际 上 是 已 知 的 ， 因 为 9 已 经 算出 来 了 。 


u 10 cos@ —sin@ uo 8 
vj = |12| =] sind cos@ ug} 17 (11-10) 
1 1 0 0 1 l 
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从 矩阵 中 所 含 的 两 个 线性 方程 可 以 很 容易 算出 wo= 15.3 和 v = -5.95。 利 用 匹配 点 8 和 五; 进 
行 检 验 ， 可 以 得 出 类 似 的 结果 。 每 对 不 同 的 点 都 将 得 出 略 有 出 入 的 变换 。 为 了 更 精确 的 算出 
变换 关系 ， 可 以 采用 覆盖 2D 空 间 的 许多 个 点 来 进行 运算 ， 这 个 方法 将 在 后 面 进行 讨论 。 完 
了 空间 变换 的 计算 ， 现 在 就 可 以 计算 模型 上 的 任意 点 在 图 像 空 间 的 位 置 ， 包括 抓 取 点 R = [29, 
19] 和 Q = [32，12]。 模 型 上 的 点 R 变 换 到 图 像 上 的 点 RR = [24.4, 27.4]. HO = [32，12] 作 为 变 
换 的 输入 ， 输 出 另 一 个 抓 取 点 在 图 像 中 的 位 置 'O = [31.2，24.2]。 
‘r fr] 区 —sind sai 
vr | = | 27.4 | = | sin cos@ —5.95 | | 19 


1 1 0 0 1 1 


(11-11) 








如 采 已 知 从 图 像 坐标 到 支撑 物体 的 工作 台 坐 标的 变换 关系 ， 机 器 人 就 能 够 抓 取 摄像 机 下 
的 真实 物体 。 当 然 ， 考 虑 到 诸如 成 像 畸变 、 特 征 检测 不 准 以 及 计算 错误 等 造成 的 微小 影响 ， 
机 器 人 手 爪 张 开 的 宽度 应 比 由 'R'Q 变 换 得 到 的 长 度 略 宽 一 些 。 尽 管 图 像 只 有 离散 空间 的 采样 点 ， 
抓 取 行为 却 是 针对 真实 的 连续 物体 ， 而 且 坐标 也 是 有 意义 的 实数 。 图 像 数据 本 身 只 在 整数 网 
格 点 上 有 定义 。 如 果 我 们 的 目的 是 通过 检验 明亮 的 图 像 像 素来 验证 孔 C 和 的 存在 ， 那 么 对 模 
型 点 的 变换 结果 应 进行 取 整 处 理 ， 这 样 才能 与 图 像 像 素 位 置 吻合 。 不 然 的 话 ， 就 要 检验 包含 
变换 后 实际 坐标 的 整个 数字 邻 域 。 通 过 这 个 例子 ， 我 们 看 到 了 比 对 方法 在 2D 目 标识 别 方面 的 
潜力 ， 比 对 是 指 将 目标 模型 与 图 像 中 的 重要 特征 点 进行 对 比 。 


定义 85 利用 旋转 、 缩 放 和 平移 (RST) 把 模型 特征 变换 成 图 像 特征 ， 通 过 匹配 进行 
目标 识别 的 方法 称 为 比 对 识别 (recognition-by-alignment ) 。 


习题 11.7 变换 顺序 能 够 互 换 吗 ? 


假设 我 们 有 3 个 表示 原始 变换 的 矩阵 : PEREPERE RR S RIRA, Dr ,表示 平 
B. (a) 缩放 和 平移 是 否 可 以 互 换 ? BIS., s Doyo Dn Sey ,成 立 吗 ? (b) 旋转 和 缩放 是 否 
可 以 互 换 ? BIRS.. s, = S, s RoR? (c) 旋转 和 平移 可 以 互 换 吗 ? 通过 代数 推导 和 定性 思 


考 得 出 结论 ， 并 进行 解释 。 


BEES 


构造 出 关于 直线 y = 3 的 反射 变换 矩阵 ， 首 先进 行 平 移 y= -3， 随 后 是 关于 x 轴 的 反射 。 通 
过 求 3 个 点 [1，1]、[1，0]、[2，1] 的 变换 结果 ， 验 证 得 出 的 变换 矩阵 是 否 正确 ， 并 绘 出 输入 点 
和 输出 点 。 


验证 和 矩阵 Duyo 与 D-u -的 乘积 是 一 个 3 x 3 的 单位 矩阵 。 解 释 结果 为 何 是 这 样 。 


11.3.8 一 般 仿 射 变换 * 

我 们 已 经 讲 了 仿 射 变换 中 旋转 、 缩 放 和 平移 3 种 基本 变换 。 nee RR. 
11-9 ROVER. feu wa, PARA Va eh. BME Seah 
的 距离 成 正比 。 关 于 v 轴 的 切 变 ， 点 [u,v] 将 变换 到 [u，esu + v]; 关于 u 轴 的 切 变 ， 点 [u, vi 
变换 到 [4 + ev, vl, AK (11-12) 和 公式 (11-13) 给 出 了 和 矩阵 方程 。 回 想 一 下 ， 切 变 盾 阵 的 
列 向 量 正好 是 基 向 量变 换 后 的 图 像 。 
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[1,0] [2,0] 
v 轴 切 变 ub yes 
图 11-9 
反射 是 仿 射 变换 的 第 五 种 基本 变换 。 关 于 x 轴 的 反射 变换 分 别 把 基 向 量 [1, 0]、[0, 1] 映 射 
到 [1, 0]、[0, ~ 雪 ， 而 关于 v 轴 的 反射 变换 分 别 把 基 向 量 [1, 0]、[0, 1] 映 射 到 [一 1, 0]. [0, 1]. FA 
2 x 2 或 3 x 3 的 矩阵 就 可 以 很 清楚 地 表示 出 来 。 任 意 仿 射 变换 都 可 以 通过 旋转 、 缩 放 、 平 移 、 
切 变 和 反射 组 合 而 成 。 这 些 基本 变换 的 逆 是 存在 的 ， 并 是 与 基本 变换 具有 相同 的 形式 。 因 此 ，- 
如 公式 (11-14) 所 示 ， 一 般 的 仿 射 变换 矩阵 含有 6 个 参数 。 已 知 3 对 不 共 线 的 对 应 点 坐标 ， 可 
以 得 到 该 类 型 的 3 个 矩阵 方程 ， 通 过 解 这 3 个 方程 ， 就 可 以 求 出 这 6 个 参数 。 在 图 11-6 中 我 们 已 
经 看 到 对 倾斜 网 格 进行 切 变 运算 的 情况 。 


x a, a12 413 u 
y| = |an an agjjv (11-14) 
1 0 0 1 1 

11.4 最 佳 2D 仿 射 变换 * 


如 公式 (11-15) Bras, 一般 的 2D-2D 仿 射 变换 需要 求 出 6 个 参数 ， 求 这 6 个 参数 时 只 用 了 3 
组 相 匹 配 的 点 对 (Ix, yl, bu, vlj=1,,3)0 


u di) 412 43 x 
v| = |an an anl|iy (11-15) 
1 0 0 1 


这 些 点 中 任意 一 个 的 坐标 存在 误差 ， 都 必然 会 造成 求 得 的 参数 存在 误差 。 解 决 这 个 问题 
更 好 的 方法 之 一 是 ， 采 用 更 多 的 匹配 控制 点 以 得 到 6 个 参数 的 最 小 二 乘 估计 。 类 似 第 10 章 直线 
拟 合 的 方法 ， 我 们 可 以 定义 一 个 误差 指标 函数 。 








n 
€(411, 412, 413, 421, 422, 423) = Saux; + ayoyj 十 al — uj)” 
j=! (11-16) 
+ (anx; + a22yj + az — v;)") 
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误差 函数 分 别 对 6 个 变量 a; 求 偏 导 9e/9a;， 使 之 为 0， 就 得 到 6 个 方程 ， 用 和 矩阵 的 形式 表示 
如 下 : 


Ex? Ux jyj xx; 0 0 0 ai Lu jx; 
Exjyj Ey Ey 0 0 | cs. aay) 
xXx; Ly; zl 0 0 0 413 x Lu; 
0 0 0 Ex? Exjy; Ux; | | az Lvjxj (11-17) 
0 0 0 Zxjy; Ly; Ly; | | 422. Xvjyj 
0 0 0 dx; Ly; Dilan Lv; 





用 三 对 匹配 控制 点 ([0, 0]，[0, 0}), (1, 0], [0, 2]). (I0, 1], [-2, 01) 求解 方程 (11-17)。 
你 的 计算 结果 与 通过 基 疝 量变 换 的 结果 一 样 吗 ? 
EEE 

用 三 对 匹配 控制 点 〈[0,0]，[12])，([1,0]，[3,2])，([0,1]，[14]) 求解 方程 (11-17). 
你 的 计算 结果 与 通过 基 向 量变 换 的 结果 一 样 吗 ? 

实现 图 像 与 地 图 或 者 图 像 与 图 像 之 间 的 对 应 ， 采 用 很 多 控制 点 是 一 种 很 常用 的 方法 。 图 
11-10 中 显示 的 基本 上 是 同一 场景 的 两 幅 图 像 。 在 图 的 下 面 给 出 了 11 对 匹配 控制 点 。 在 两 幅 图 
像 (或 地 图 ) 中 ， 控 制 点 都 是 目标 的 角 点 ， 这 些 点 都 是 具有 唯一 性 的 可 识别 点 。 本 例 中 的 控 
制 点 是 通过 显示 程序 然后 利用 鼠标 选取 的 。 余 差 列表 表明 ， 利 用 求 得 的 变换 矩阵 进行 计算 ， 
右 侧 图 像 中 的 x、v 坐 标 值 与 变换 得 到 的 值 相差 不 到 两 个 像素 。 大 多 数 余 差 是 小 于 一 个 像素 。 
使 用 自动 特征 检测 方法 ， 在 亚 像素 精度 上 确定 特征 点 的 位 置 ， 可 以 得 到 更 好 的 结果 。 如 果 通 
过 计算 机 鼠标 和 人 眼 来 确定 控制 点 ， 控 制 点 坐标 常常 会 产生 一 个 像素 的 误差 。 利 用 求 得 的 仿 
射 变换 ， 左 侧 图 像 中 的 目标 就 可 以 在 右 侧 图 像 寻 找到 。 这 样 我 们 就 不 难 理解 ， 为 了 更 新 征 税 
地 图 上 的 目标 物 ， 征 税 地 图 与 航 测 图 像 的 对 应 关系 是 怎样 建立 起 来 的 。 





-从 图 11-10 中 选取 3 对 匹配 控制 点 ， 例 如 ([288,210,1]，[31,160,1])， 验 证 仿 射 变换 矩阵 把 
第 一 幅 图 映射 成 第 二 幅 图 。 


11.5 仿 射 映射 法 2D 目 标识 别 


本 布 研 究 从 模型 点 映射 到 图 像 点 的 2D 目 标识 别 方法 。 在 仿 射 映射 部 分 我 们 已 经 介绍 了 通 
过 比 对 进行 识别 的 方法 。 通 用 方法 采用 的 是 一 般 特征 点 。 而 每 个 应 用 领域 都 存在 一 些 特殊 特 
征 ， 可 以 给 这 些 特 征 附加 特殊 标记 。 在 零件 分 类 应 用 中 我 们 可 能 选取 角 点 或 孔 的 中 心 ， 而 在 
土地 测量 应 用 中 可 能 选取 交叉 点 和 高 曲率 土地 与 水 域 的 边界 点 。 

图 11-11 是 一 个 总 的 模型 -匹配 范例 。 图 11-11a 是 飞机 零件 的 边界 模型 。 在 匹配 中 可 能 用 到 的 
特征 点 用 小 黑 点 做 了 标记 。 图 11-11b 是 真实 的 飞机 零件 图 ， 与 模型 的 方位 基本 一 致 。 图 11-11c 是 
真实 零件 旋转 45° 后 的 图 像 。 图 11-11d 也 是 真实 零件 的 图 像 ， 但 由 于 摄像 机 角度 的 关系 导致 图 
像 存在 明显 的 扭曲 。 本 节 要 讲 的 识别 算法 ， 是 确定 一 幅 给 定 的 图 像 中 ， 如 图 11-11b、11-11c 和 
11-11d， 是 否 包含 如 图 11-11a 中 的 目标 模型 ， 并 且 确 定 摄像 机 与 目标 之 间 的 相对 位 姿 (pose) 
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====== ”最 优 2D 仿 射 拟 合 程序 Mo 
匹配 控制 点 对 : 

288 210 31 160 232 288 95 205 195 372 161 229 269 314 112 159 
203 424 199 209 230 336 130 196 284 401 180 124 327 428 198 69 
284 299 100 146 337 231 45 101 369 223 38 64 


变换 矩阵 : 
[ -0.0414 ， 0.773 ，-119 
-1.120 ，-0.213 ,. 526 ] 


22 个 方程 的 余 差 (以 像素 为 单位 ) : 
P26) 70.68 3.22 00.47 70.9% 0.06 0.34 0, T 2.09 0.04 0,96 
hog OLEI 0.05 ` 0.27 0,13 edd 0.30 ch ba -0,13 1.81 


= 二 拟 合 程序 完成 ====== 





图 11-10 同一 场景 的 图 像 ， 以 及 从 左 图 到 右 图 的 最 佳 仿 射 映射， 该 映射 采用 11 个 控制 点 得 到 。 
左 图 中 的 坐标 用 [x， 表示 ，x 向 下 延伸 ，y 向 右 延伸 ; 右 图 中 的 坐标 用 [u，v] 表 示 ， 
4 向 下 延伸 ，v 向 右 延伸 。 图 像 下 面 的 11 组 坐标 是 匹配 控制 点 的 x、 y、u、v。 你 能 对 
两 幅 图 像 的 特征 进行 匹配 吗 ? (图 像 由 Oliver Fangeras 提 供 ) 


a) 零件 模型 b) 水 平 图 像 c) 旋转 45" 的 图 像 d) 旋转 且 扭 曲 的 图 像 
图 11-11 飞机 零件 的 2D 模 型 和 3 幅 匹 配 图 





11.5.1 局 部 特征 焦点 法 
局 部 特征 焦点 法 利用 目标 的 局 部 特征 和 它们 之 间 的 2D 空 间 关系 进行 目标 识别 。 首先 要 建 
立 一 套 目标 模型 ， 每 个 模型 对 应 一 个 要 识别 的 目标 物体 。 每 个 模型 要 包含 一 组 焦点 特征 
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(focus feature)， 也 就 是 目标 物体 上 容易 被 检测 到 的 主要 特征 ， 当 然 这 些 特 征 不 能 被 其 他 物体 
遮挡 。 对 每 个 焦点 特征 ， 它 的 邻近 特征 也 包含 在 模型 中 。 可 用 这 组 邻近 特征 验证 是 否 找到 正 
确 的 焦点 特征 ， 以 及 帮助 确定 目标 物体 的 位 姿 。 

在 匹配 阶段 ， 从 包含 一 个 或 多 个 目标 的 图 像 上 抽取 特征 。 匹 配 算法 首先 查找 焦点 特征 。 


焦点 特征 的 邻近 特征 尽 可 能 多 地 匹配 上 。 一 旦 找到 了 这 样 的 一 组 图 像 特征 ， 并 且 这 些 图 像 特 
征 与 目标 模型 的 特征 之 间 的 对 应 关系 已 经 确定 ， 那 么 算法 就 做 出 图 像 中 包含 该 目标 的 假设 ， 
然后 通过 验证 技术 确定 这 个 假设 的 正确 性 。 

仿 证 过 程 必须 确定 ， 图 像 中 是 否 有 足够 的 证 据 能 够 证 明 场 景 中 确实 存在 假设 存在 的 目标 .。 
对 于 多 面体 ， 常 用 目标 边界 作为 合适 的 证 据 。 利 用 相对 应 的 特征 确定 从 模型 点 到 图 像 点 的 仿 
射 变 换 ， 然 后 用 这 个 变换 把 边界 线段 变换 到 图 像 空 间 中 。 只 要 不 存在 遮挡 现象 ， 变 换 后 的 线 
段 应 该 大 体 上 与 图 像 中 的 线段 对 齐 。 由 于 图 像 噪声 和 特征 抽取 及 匹配 所 产生 的 误差 ， 变 换 后 
的 线段 不 可 能 与 图 像 中 的 线段 完全 重合 ， 但 可 以 找到 包含 变换 后 线段 的 一 个 矩形 区 域 ， 作 为 与 
图 像 线段 相 匹配 的 证 据 。 如 果 找 到 了 足够 的 证 据 ， 那 么 就 认为 该 模型 线段 通过 验证 ， 并 进行 标 
记 。 如 果 足 够 多 的 模型 线段 通过 验证 ， 那 么 就 认为 图 像 中 确实 存在 该 目标 ， 并 且 位 于 经 变换 运 
算 所 得 到 的 位 置 处 。 

局 部 特征 焦点 算法 ， 把 已 知 的 模型 F 和 一 幅 图 像 进行 匹配 ， 有 具体 算法 如 下 所 述 。 模 型 中 有 
一 组 焦点 特征 {E,，F:，…，Ew}。 对 于 每 个 焦点 特征 FE。， 都 对 应 一 组 邻近 特征 SGF,)， 这 些 邻 
近 特 征用 于 验证 焦点 特征 。 在 图 像 上 检测 到 一 组 图 像 特征 {G,，G,，…，G,}。 对 于 每 个 图 像 
特征 G,， 都 有 一 组 邻近 的 图 像 特 征 S(CG,)。 模型 F 

图 11-12 是 局 部 特征 焦点 算法 的 示意 图 ， 








F2_F3 

包括 两 个 模型 E 和 F， 以 及 -- 幅 图 像 。 检 测 Ey OO) 
到 的 特征 是 圆 孔 和 尖 角 。 假 设 模型 F 中 的 局 

部 特征 F1 与 图 像 中 的 特征 G1 对 应 ， 并 发 现 a 
模型 中 的 邻近 特征 F2、F3 和 F4 分 别 与 图 像 ED 

中 的 邻近 特征 G2、G3 和 G4 存在 很 好 的 对 应 。 

验证 过 程 将 显示 , 模型 F 确 实在 图 像 中 存在 。 (E2) | 模型 E 
考虑 另 一 个 模型 E， 已 经 做 出 假设 : 特征 El 

及 邻近 特征 E2、E3 和 E4 分 别 与 图 像 中 的 特 3) 





征 G5、G6、G7 和 G8 对 应 ， 但 是 在 进行 验 
证 时 ， 模 型 E 的 边界 与 图 像 中 的 线段 不 能 很 ” 图 11-12 局 部 特征 焦点 法 。 图 像 中 显示 模型 F 探 在 另 
好 的 对 齐 ， 那 么 这 个 假设 就 要 放弃 掉 。 一 个 目标 上 
算法 11.1 用 局 部 特征 焦点 法 寻找 从 模型 特征 到 图 像 特征 的 变换 
G, i = l;e I, 检测 到 的 图 像 特征 集 。 
Fn m= 1,---,M, 模型 中 的 焦点 特征 集 。 
S(f)， 特 征 f 的 近邻 特征 集 。 
procedure local_feature_focus(G, F) ; 


{ 
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| for each focus feature Fm 
for each image feature G; of the same type as F,, 
{ 
Find the maximal subgraph Sn of S(F,,)that 
matches a subgraph Si of S(G,); 
Compute the transformation T that maps the points of 
each feature of S, to the corresponding feature of S;; 
Apply T to the boundary segments of the model; 
if enough of the transformed boundary segments find 
evidence in the image then return(T); 








11.5.2 位 姿 聚 类 

我 们 已 经 看 到 ， 利 用 旋转 、 缩 放 和 平移 变换 ， 根 据 两 个 匹配 控制 点 能 够 得 到 模型 特征 与 
图 像 特 征 间 的 对 应 关系 。 一 旦 在 图 像 与 模型 之 间 找 到 两 个 匹配 控制 点 ， 就 可 以 通过 公式 (11- 
6) 得 出 结果 。 由 于 匹配 时 可 能 存在 歧义 性 ， 使 得 自动 获得 匹配 控制 点 并 不 容易 。 位 姿 聚 类 方 
法 对 所 有 可 能 的 控制 点 对 都 算出 一 个 RST 队 列 ， 然 后 进行 检查 以 找到 相似 参数 的 聚 类 。 如 果 
在 模型 与 图 像 间 确 实 存在 很 多 匹配 特征 点 ， 那 么 在 参数 空间 中 就 应 该 存在 一 个 聚 类 。 位 姿 聚 
类 算法 简单 表示 如 下 。 





算法 11.2 通过 位 姿 聚 类 寻找 从 模型 特征 到 图 像 特 征 的 变换 
Pi，i = 1,…,D， 检 测 到 的 图 像 特征 集 。 
Lj, j=1,…,M， 存储 的 模型 特征 集 。 
procedure pose_clustering (P, L); 
{ 
for each pair of image feature points (P,, P,) 
for each pair of model feature points (Lm, L,,)of same type 
{ 
compute parameters a of RST mapping 
pair (Lm L,)onto (P,, P,); 
contribute æ to the cluster space; 


}; 


examine space of all candidates æ for clusters; 
verify every large cluster by mapping all 

model feature points and checking the image; 
return(verified {œ }); 


} 





定义 86 ” 设 7 是 一 个 空间 变换 ， 这 个 变换 把 模型 与 图 像 中 的 目标 0 对 应 起 来 。 目 标 
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O 的 位 姿 (pose) 是 指 由 7 的 参数 a 所 定义 的 位 置 和 方向 。 


利用 所 有 的 特征 点 对 ， 将 造成 过 多 的 元 余 。 在 匹配 航 测 图 像 与 地 图 的 应 用 中 ， 可 以 使 用 


检测 到 的 公路 网 交叉 点 或 区 域 如 田地 和 角 
交叉 点 。 把 交叉 的 角度 作为 匹配 中 使 用 
的 类 型 ， 比 如 常见 的 交叉 类 型 有 “L”、 
“Y”、“T”、“ 第 头 ” 和 “X”， 如 图 11- 
13 所 示 。 假 设 我 们 仅 使 用 组 合 类 型 LX 或 
TY。 在 图 11-14 所 示 的 例子 中 ， 有 5 个 模 
型 对 和 4 个 图 像 对 。 尽 管 可 能 有 4 x 5 = 


20 种 配对 方式 ， 但 两 端 类 型 一 致 的 配对 方式 只 有 10 种 。 表 11-3 中 是 根据 这 10 对 匹配 特征 算出 
的 变换 参数 。 这 10 个 变换 中 ， 除 了 表 中 最 后 一 列 以 * 标 注 的 3 个 变换 外 ， 其 他 变换 的 参数 之 间 
都 明显 不 一 致 。 这 3 组 参数 构成 一 类 ， 其 参数 平均 值 为 6= 0.68, s=2.01, u= 233, v= -41。 
为 了 实现 正确 的 匹配 ， 希 望 差异 更 小 一 些 ， 但 这 个 差异 是 由 于 特征 点 定位 的 微小 误差 和 成 像 
过 程 中 的 非 线性 畸变 引起 的 。 如 果 RST 匹 配 中 的 参数 值 不 够 精确 ， 可 以 用 它们 来 验证 匹配 点 ， 
然后 把 这 些 匹 配点 作为 控制 点 寻找 匹配 精度 更 高 的 非 线性 映射 或 仿 射 映 射 〈 带 更 多 的 参数 )。 
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图 11-13 匹配 中 常用 的 线段 连接 


200 





图 11-14 位 姿 检测 示例 ， 使 用 5 个 模型 特征 点 对 和 4 个 图 像 特征 点 对 


表 11-3 由 图 11-14 中 的 10 种 位 姿 计 算 构成 的 聚 类 空间 


模 型 对 


220), 
220), 
100), 
100), 
100), 
100), 


X(100, 200) 
X(100, 200) 
Y(40, 150) 
Y(40, 150) 
X(220, 170) 
X(220, 170) 


70), X(40, 70) 
70), X(40, 70) 


125), 
125), 


Y(150, 50) 
Y(150, 50) 


L(545, 
L(420, 
T(260, 
T(140, 
L(545, 
L(420, 
L(545, 
L(420, 
T(260, 
T(140, 


图 像 对 


400)， 
370)， 
240), 
380), 
400), 
370), 
400). 
370), 
240), 
380), 


X(200, 
X(360, 
Y(100, 
Y¥(300, 
X(200, 
X(360, 
X(200, 
X(360, 
Y(100, 
Y(300, 


120) 
500) 
245) 
380) 
120) 
500) 
120) 
500) 
245) 
380) 


0 


0.403 
5.14 
0.663 
3.87 
2.53 
0.711 
0.682 
5.14 
4.68 
1.57 


345 
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位 姿 聚 类 可 使 用 低级 特征 ， 但 如 果 对 特征 进行 类 型 过 滤 ， 精 度 和 效率 都 会 得 到 提高 。 可 
用 简单 的 Oo" ) 算法 进行 聚 类 : 对 每 一 个 参数 集 w， 根 据 某 种 距离 测度 统计 与 它 接近 的 其 他 参 
数 集 x% 的 个 数 。 这 样 在 聚 类 空间 中 ， 对 m 个 参数 集中 的 每 一 个 ， 都 需 进行 - 1 次 距离 计算 。 一 


聚 类 方法 已 经 被 用 来 检测 航 测 图 像 中 是 否 存在 特殊 的 飞机 模型 ， 如 图 11-15 所 示 。 采 用 第 
5 章 和 第 10 章 中 的 方法 ， 从 图 像 中 抽取 边缘 和 曲率 特征 。 将 这 些 特 征 构成 的 不 同 覆 盖 窗 口 与 图 
b 中 显示 的 模型 相 匹配 。 图 显示 某 个 窗口 内 检测 到 的 边缘 ， 其 中 使 用 相同 的 变换 参数 使 很 多 
特征 与 模型 特征 相对 应 。 





图 11-15 用 位 姿 聚 类 检测 某 架 特殊 飞机 (经 IEEE 许 可 再 版 ) 


a) 机 场 的 航 测 图 像 

b) 依据 实际 边缘 ， 以 及 由 角 点 和 曲线 顶点 构成 的 抽象 边缘 构成 的 飞机 模型 

5) 图 像 窗口 包含 检测 到 的 特征 ， 这 些 特征 经 相同 的 变换 得 到 ， 并 且 与 多 个 模型 部 件 相 匹配 。 
11.5.3 几何 散 列 

局 部 特征 焦点 法 和 位 姿 聚 类 算法 都 是 将 单一 模型 与 一 幅 图 像 匹 配 。 如 果 存 在 几 个 不 同 的 
目标 模型 ， 那 么 这 两 种 方法 就 要 对 每 个 模型 分 别 进行 运算 ， 而 每 次 只 能 针对 一 个 模型 ， 因 此 
当 存在 很 多 不 同 目标 时 ， 这 两 种 方法 就 不 太 合适 。 几 何 散 列 主要 针对 大 型 模型 数据 库 。 几 何 
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散 列 需 要 进行 大 量 的 离线 预 处 理 而 且 占 用 大 量 空间 ， 这 是 为 了 能 够 快速 进行 在 线 目 标识 别 和 
位 姿 确定 。 

假设 已 知 

1. 一 个 大 型 模型 数据 库 

2. 一 个 未 知 目标 ， 其 特征 从 图 像 中 抽出 ， 该 目标 是 某 个 模型 的 仿 射 变换 结果 
并 希望 确定 究竟 是 哪 一 个 模型 ， 采 用 的 变换 是 什么 。 

把 模型 M 看 作 特 征 点 的 有 序 集合 。 可 以 用 M 的 任意 三 个 不 共 线 点 的 子 集 E = feo, es or} 
来 构造 一 个 仿 射 基 集 ， 这 个 仿 射 基 集 定义 了 M 上 的 一 个 坐标 系 ， 如 图 11-16a 所 示 。 一 旦 选 定 
这 个 坐标 系 ， 就 可 以 用 仿 射 坐标 (6. 9) 的 形式 表示 任意 的 点 x, xe M， 其 中 


x = E (e10 — e00) + n(€o1 — e00) + eo0 
此 外 ， 对 点 x 进行 仿 射 变换 T， 得 到 
Tx = (Teo — Teow)+n(Teo — Teo) + Teow 


这 样 Tx 关 于 (Teoo， Tegi, Tey) 的 仿 射 坐标 ， 与 x 关于 (eo; €01 e10) 的 仿 射 坐标 相同 ， 都 是 
(6&,n)。 如 图 11-16b 所 示 。 
离线 预 处 理 (offline preprocessing) 离 €10 
线 预 处 理 阶 段 建立 一 个 散 列 表 ， 表 中 包含 数 Teo, 
据 库 中 所 有 的 模型 。 这 个 散 列 表 建 立 之 后 ， fo 
仿 射 坐标 对 (6, n) 指明 散 列 表 中 一 个 箱 格 ， 
散 列 表 中 存储 了 模型 - 基 对 (M, E) 的 列表 
清单 ， 其 中 模型 M 上 的 某 点 xz 具有 关于 基 开 的 “oo 
仿 射 坐标 (6, n)。 离 线 预 处 理 算法 在 算法 Teoo 
11.3 中 给 出 。 a) 原始 目标 b) 变换 后 的 日 标 
在 线 识别 (Online Recognition) 在 线 识 图 11-16 关于 仿 射 基 集 的 点 的 仿 射 变换 
别 阶段 使 用 预 处 理 阶段 建立 的 散 列 表 。 识 别 
阶段 也 使 用 一 个 用 模型 - 基 对 做 索引 的 累加 数组 A。 对 每 对 (M，E) 都 将 箱 格 初始 化 为 零 ， 箱 
格 用 来 对 存在 使 (M, E) 属于 图 像 的 变换 T 的 假设 进行 投票 表决 。 仅 对 那些 得 票 较 高 的 模型 - 
基 对 计算 出 实际 变换 ， 并 作为 后 面 投票 表决 验证 阶段 的 一 部 分 。 在 线 识 别 和 位 姿 估计 算法 在 
下 面 给 出 。 
假设 有 s* 个 模型 ， 每 个 模型 大 概 有 2 个 点 ， 那 么 预 处 理 阶 段 的 复杂 度 是 O(s 0) ， 这 是 由 于 要 
处 理 s 个 模型 ， 每 个 模型 要 处 理 三 元 组 的 复杂 度 为 0(m*)， 处 理 模型 中 其 他 点 的 复杂 度 为 O(n)。 
在 匹配 中 ， 工 作 量 取决 于 在 图 像 中 找到 的 特征 点 质量 如 何 ， 其 中 有 多 少 被 遮挡 住 ， 以 及 检测 
出 多 少 错 的 或 额外 的 特征 点 。 最 好 的 情况 是 ， 第 一 次 选择 的 三 元 组 ， 就 是 来 自 同 一 模型 的 三 
个 实际 特征 点 ， 那 么 这 个 模型 的 得 票数 就 很 高 ， 验 证 过 程 成 功 ， 工 作 就 完成 了 。 对 于 这 个 最 
好 的 情况 ， 假 设 散 列表 的 平均 列 长 度 是 一 个 很 小 的 常数 ， 散 列 时 间 也 基本 是 个 常数 ， 那 么 匹 
配 阶 段 的 复杂 度 大 概 是 O(0oD) 。 在 最 坏 情况 下 ， 比 如 模型 根本 不 在 数据 库 中 ， 每 个 三 元 组 都 被 
试 过 ， 那 么 复杂 度 是 O(z。 在 实际 中 ， 对 所 有 三 元 组 都 试 过 的 情况 很 少 发 生 ， 而 只 试 一 组 就 
成 功 的 情况 也 同样 少见 。 下 面 是 会 带 来 误差 的 几 个 方面 。 


Teig 
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1. 特征 点 坐标 有 误差 
2. 丢失 或 添加 特征 点 


3. 遮挡 ， 多 个 目标 
4. 不 稳定 的 基 


5. 对 点 的 子 集 做 不 合理 的 仿 射 变换 
特别 地 ， 算 法 有 可 能 虚构 一 个 基 
于 点 的 子 集 的 变换 ， 这 些 点 通过 了 验 





a) 图 像 点 b) 虚构 的 目标 


证 测试 ， 但 结果 实际 上 是 错误 的 。 图 “图 1L17 几何 散 列 算法 ， 错 误 地 认为 图 像 中 存在 一 个 已 知 


11-17 举 例 说 明了 这 一 点 。 位 姿 聚 类 
和 局 部 特征 焦点 法 同样 会 产生 类 似 的 
情况 。 


模型 。 本 例 中 ，60% 的 特征 点 〈 左 ) 将 验证 通过 
图 像 中 存在 一 个 目标 (A) 的 假设 ， 尽 管 这 个 目 
标 实际 上 并 不 存在 





算法 11.3 几何 散 列 的 离线 预 处 理 


D 是 模型 数据 库 。 
H 是 初 值 为 空 的 散 列表 。 


procedure GH_Preprocessing (D, H) ; 


{ 


for each model M 


{ 


Extract the feature point set Fy of M; 


for each noncollinear triple E of points from Fy, 


for each other point x of Fy 
{ 
Calculate (&, 7) for x with respect to E; 
Store (M, E) in hash table H at index (é, n); 








下 是 由 预 处 理 阶 段 建立 的 散 列 表 。 

AM (M, E) 做 索引 的 累加 数组 。 

I 是 要 分 析 的 图 像 。 
procedure GH_Recognition(H, A, I); 
{ 


Extract feature points from image I, 
for each basis triple F 


{ 


for each other point v 





算法 11.4 ”使 用 散 列表 寻找 正确 模型 和 把 图 像 特 征 映射 到 模型 特征 的 变换 


Initialize accumulator array A to all zeroes; 
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{ 
Calculate (€, n) for v with respect to F; 


Retrieve the list L of model-basis pairs from the 
hash table H at index(&, n); 
for each pair (M, E) of L 
A[M, E] = A[M, E] + 1; 
} 
Find the peaks in accumulator array A; 
for each peak(M, E) 
{ 
Calculate T such that F = TE; 
if enough of the transformed model points of M find 


evidence on the image then return (T); 





11.6 相关 匹配 法 2D 目 标识 别 


我 们 已 经 讨论 了 3 种 方法 ， 它 们 将 观测 到 的 图 像 点 与 模型 点 进行 匹配 。 这 3 种 方法 是 局 部 


特征 焦点 法 、 位 姿 聚 类 法 和 几何 散 列 法 。 本 节 我 们 讨论 三 个 简单 的 带 有 一 般 性 的 目标 识别 范 


例 。 
一 致 性 标记 ， 识 别 就 是 把 一 个 模型 足够 多 的 特征 映射 成 有 效 图像 特 征 。3 个 范例 的 不 同 之 处 在 


3 个 范例 都 把 识别 看 成 是 从 模型 结构 到 图 像 结 构 的 映射 ， 即 依据 模型 特征 寻找 图 像 特 征 的 


于 如 何 建立 映射 。 


匹配 范例 中 用 到 的 4 个 重要 概念 是 部 件 (part)、 标 记 (label), 242 (assignment) 和 关系 


(relation). 


。 部 件 是 场景 中 的 目标 或 结构 ， 如 区 域 、 边 缘 、 孔 、 角 点 或 团 儿 。 

* 标 记 是 在 某 个 层次 上 为 识别 部 件 而 标识 的 符号 。 

“ 分配 是 从 部 件 到 标记 的 一 个 映射 。 如 果 已 表示 一 个 区 域 ， 头 是 表示 湖 的 符号 ， 忆 是 表示 
田地 的 符号 ， 一 个 分 配 可 能 是 (Pi;，L,)， 也 可 能 是 具有 歧义 性 的 (Pi, {L,, L}). (P, 
NIL) 分 配对 表示 已 在 现 有 的 标记 集合 中 没有 对 应 的 解释 。 场 景 的 解释 是 指 所 有 分 配对 
构成 的 集合 。 

“关系 是 正式 的 数学 概念 。 我 们 能 够 找到 和 算出 场景 中 各 目标 之 间 的 关系 ， 并 且 把 这 种 关 
RPK. AN, RAP), P) 就 可 以 表示 区 域 Pi 与 区 域 P, 是 相 邻 的 关系 。 

有 了 这 4 个 概念 ， 我 们 就 可 以 对 一 致 性 标记 进行 定义 了 。 

定义 87 已 知 部 件 集合 P， 这 些 部 件 的 标记 集合 L， 部 件 集 P 上 的 关系 R。， 以 及 标记 集 

L 上 的 关系 R.， 那 么 一 致 性 标记 (consistent labeling) /就 是 满足 下 列 条 件 的 从 部 件 到 

标记 的 一 个 分 配 。 

(pi, pr) € Rp, WCF (pi), f (pr) € RL 


例如 要 寻找 两 图 像 间 的 匹配 关系 ， 对 每 幅 图 像 我 们 都 有 从 中 抽取 的 一 组 线段 ， 以 及 相连 
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线段 对 之 间 的 连接 关系 。 设 P 是 第 一 幅 图 像 中 的 线段 集合 ，Rbp 表 示 相 连 线 段 对 的 集 
合 ，R, CPXP 。 类 似 设 L 是 第 二 幅 图 像 中 的 线段 集合 ,Ri 是 相连 线段 对 的 集合 ，R, cLxL 。 
图 11-18 表 示 出 两 幅 图 像 以 及 集合 P、Rp、L 和 RL。 注意 Rp 和 Ri 都 是 对 称 关系 ， 如 果 (Si, Sj) 
属于 一 个 关系 ， 则 (Sj，5i) 也 属于 这 个 关系 。 例 子 中 只 列 出 了 满足 i<j 的 组 对 (Si，5j),， 其 
BRAM (Sj, Si) REFE. 





图 像 1 


P = {S1, S2, S3, $4, $5, S6, S7, S8, S9, S10, $11}. 
L = {Sa, Sb, Sc, Sd, Se, Sf, Sg, Sh, Si, Sj, Sk, S1, Sm}. 


Rp = { (S1, $2), (S1, $5), (S1, S6), (S2, $3), (S2, $4), (S3, $4), (S3, $9), (S4, $5), (S4, S7), 
(S4, S11), (S5, $6), (S5, S7), (S5, $11), (S6, S8), (S6, S11), (S7, S9), (S7, $10), (S7, $11), 
(S8, $10), (S8, S11), (S9, $10) }. 

RL = { (Sa, Sb), (Sa, Sj), (Sa, Sn), (Sb, Sc), (Sb, Sd), (Sb, Sn), (Sc, Sd), (Sd, Se), (Sd, Sf), 


(Sd, Sg), (Se, Sf), (Se, Sg), (Sf, Sg), (Sf, S1), (Sf, Sm), (Sg, Sh), (Sg, Si), (Sg, Sn), (Sh, Si), 
(Sh, Sk), (Sh, SI), (Sh, Sn), (Si, Sj), (Si, Sk), (Si, Sn), (Sj, Sk), (Sk, SI), (SI, Sm) }. 


图 11-18 一 致 性 标记 问题 举例 
在 这 个 例子 中 ， 一 致 性 标记 就 是 映射 f 表示 如 下 : 
f(S1)=Sj  f(S7)= Sg 
' f (S2)=Sa f (S8)=SI 
f (S3)=Sb f (S9)= Sd 
f (S4)=Sn  f(S10)=Sf 
f (S5)=Si f (S11) =Sh 
f (S6) = Sk 
另 一 个 例子 ， 回 到 图 11-8 及 相关 表 所 示 的 目标 识别 问题 。 匹 配 范 例 采 用 两 点 间 的 距离 关 
系 ， 每 一 对 孔 通 过 它们 之 间 的 距离 关联 起 来 。 对 于 旋转 和 平移 来 说 ， 距 离 是 不 变量 ， 但 对 于 
缩放 来 说 距离 是 变化 的 。 我 们 用 12(4, 8B) 和 12(B, C) 表 示 模 型 中 点 4 和 点 B、 点 B 和 点 C 之 间 相 距 
12。 但 是 12(C, D) 与 距离 表 中 的 情况 不 一 致 。 允 许 出 现 失真 和 检测 误差 的 化 ， 我 们 认为 12(C,， 
D) 是 有 效 的 ， 尽 管 实际 上 C 和 DD 之 间 相 距 为 12 + A，A 表 示 微 小 偏 移 量 。 


习题 11.13 一 致 性 标记 问题 
证 明 上 面 给 出 的 标记 三 一 致 性 标记 。 因 为 是 对 称 关系 ， 必 定 满足 如 下 改进 的 约束 条 件 : 
(Pi, pi) € Rp, WF (pi), f(pi)) € Re 或 (fpr), f (pd) € Rt 


11.6.1 解释 树 
定义 88 ”解释 树 (interpretation tree, IT) 是 一 种 树 状 结构 ， 表 示 对 部 件 的 所 有 可 能 
的 标记 分 配 。 解 释 树 上 的 每 条 通路 遇 到 终止 时 ， 要 么 是 完全 一 致 分 配 ， 要 么 是 关系 
失败 的 部 分 分 配 。 
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图 11-19 所 显示 的 ， 是 图 11-8 中 图 像 数据 的 解释 树 的 一 部 分 。 树 有 3 层 ， 为 图 像 中 可 见 的 3 
个 也 Hl、H,、HH 分 配 标记 。 第 一 层 上 没有 出 现 不 一 致 的 情况 ， 因 为 没有 进行 检测 的 距离 约束 。 
而 在 第 二 层 ， 仅 用 一 个 距离 进行 检测 就 使 大 多 数 标记 终止 。 例 如 部 分 分 配 {(Hl1，A)，(H,，4)} 
是 不 一 致 的 ， 因 为 004 ，4) 与 关系 21(H,，H,) 不 一 致 。 由 于 空间 关系 在 图 11-19 中 只 显示 出 少 
量 通路 。 其 中 方 框 表示 的 标记 通路 是 一 个 完全 一 臻 分配， 椭圆 表示 的 通路 也 是 一 致 的 ， 但 因 
为 包含 一 个 NIL 标 记 而 无 法 使 用 更 多 的 检测 约束 条 件 。 该 分 配 与 方 框 表示 的 完全 分 配 中 的 前 两 
对 标记 正好 互相 颠倒 ， 只 有 一 个 检测 距离 是 一 致 的 。 由 于 存在 对 称 性 ， 解 释 树 具有 多 条 成 功 
的 通路 。 尽 管 解释 树 包 含 的 通路 数 可 能 是 指数 级 的 ， 但 由 于 存在 关系 约束 ， 大 多 数 通路 将 终 
止 于 第 3 层 。 使 用 NIL 标 记 主 要 是 为 了 检测 场景 中 的 人 为 特征 和 其 他 目标 的 特征 。 


Hi, NIL 






H,A H,B HC H,, D (H, E) Hh, NIL 21(H,, Hy) ~ 21(A, E) 


0(A,A) 12(A, B) 15(A, C) 37(A, D) 21 (A, E) 21(H;, Hy) 







26(H;, H3) 12(H2, H3) 


H, A HyB HC H;,D H, E 


26(H,, H3) ~ 26(E, B) 
O(A, A 37(A, D) ~ 
R, D 30(D, E) 12(H», H3) ~ 12(A, B) 





图 11-19 针对 图 11-8 CH) 中 的 部 件 ， 搜 索 其 一 致 性 标记 的 解释 树 

利用 递归 回溯 方法 很 容易 设计 出 解释 树 ， 其 中 以 深度 优先 的 方式 生成 通路 。 对 于 任意 程 
序 实例 ， 用 NIL 初 始 化 的 参数 /包含 一 致 性 部 分 分 配 。 一 旦 某 个 部 件 的 新 标记 与 这 个 部 分 分 配 
一 致 ， 算 法 就 进入 解释 树 的 下 一 层 ， 并 为 未 标记 部 件 假 定 另 一 个 标记 。 如 果 检 测 到 不 一 致 情 
况 ， 算 法 就 回 退 进行 另 一 个 选择 。 如 编码 所 示 ， 算 法 返回 第 一 条 完全 通路 ， 如 果 那 个 标记 明 
显 属于 ZL 的 话 ， 通 路 中 就 包含 NIL 标 记 。 对 算法 进行 改进 ， 可 以 返回 最 不 可 能 有 NIL 对 的 完全 
通路 ,或 者 返回 所 有 完全 通路 。 

递归 解释 树 搜索 算法 的 定义 具有 一 般 性 ， 可 以 处 理 任意 N 元 关系 Rs 和 R;， 并 非 只 限于 二 元 
关系 。Rb 和 Ri 可 以 是 单独 一 个 关系 ， 比 如 第 一 个 例子 中 的 连接 关系 ; 也 可 以 是 不 同 关系 的 组 
合 ， 如 连接 、 平 行 和 距离 关系 。 


算法 11.5 通过 解释 树 搜索 寻找 从 模型 特征 到 图 像 特征 满足 模型 关系 的 映射 
P 是 检测 到 的 图 像 特 征 的 集合 。 
工 是 存储 的 模型 特征 的 集合 。 


















262 FSIE 




















Rp 是 图 像 特征 关 系 o 
Ri 是 模型 特征 关系 。 
f 是 要 返回 的 一 致 性 标记 ， 初 始 化 为 NIL。 
procedure Interpretation_Tree_Search(P, L, Rp, R,, f); 
{ 
p := first(P); 
for each lin L 
{ 
f'=fU (p, Dh AN 添加 部 分 标记 到 解释 
OK = true; 


for each N-tuple (p,, = , py)in Rp containing component p 














and whose other components are all in domain(f) 
\ 检 测 关系 
if (f° (p,), =, f(pN)is not in R, then 
{ 
OK: = false; 
break; 
} 
if OK then 
{ 
P' = rest(P); 
if isempty(P') then output(f ); 
else Interpretation_Tree_Search(P', L, Rp, Ra. f'); 














11.6.2 离散 松弛 

松弛 法 只 使 用 局 部 约束 ， 而 不 是 使 用 所 有 可 能 的 约束 ， 如 解释 树 一 条 通路 上 的 所 有 匹配 
约束 。 经 过 N 次 和 迭代， 关于 一 个 部 件 邻 域 的 局 部 约束 ， 可 以 在 通路 上 穿 过 目标 传播 到 相距 N 条 
边 的 另 一 个 部 件 。 尽 管 在 一 次 选 代 中 使 用 的 约束 ， 比 解释 树 搜索 时 用 到 的 那些 约束 强度 要 弱 ， 
但 这 些 约束 可 以 并 行使 用 ， 从 而 可 以 加 快 和 简化 处 理 过 程 。 

开始 时 ， 只 要 类 型 正确 可 用 任何 标记 来 对 一 个 部 件 进行 标记 ， 假 设 为 该 部 件 分 配 了 所 有 
可 能 的 一 组 标记 。 离 散 松弛 要 检验 特定 部 件 与 所 有 其 他 部 件 间 的 关系 ， 通 过 这 样 来 减少 特定 
部 件 的 可 能 标记 。 在 字符 识别 问题 中 ， 如 果 知 道 下 一 个 字母 不 是 “U” ， 那 么 就 可 以 推断 当前 
字母 不 是 “Q”。 男 一 个 应 用 领域 中 ， 如 果 知 道 某 个 图 像 区 域 不 是 水 域 ， 那 么 其 中 的 物体 也 就 
不 会 是 轮船 。 离 散 松弛 法 是 David Waltz 推 出 的 ， 他 使 用 离散 松弛 法 来 约束 为 线条 图 边缘 分 配 
的 标记 。( Winston 的 著作 中 讨论 了 Waltz 滤 波 。) Waltz 使 用 的 是 串 行 算法 ， 这 里 我 们 提出 一 个 
并 行 算 法 。 、 

一 开始 根据 部 件 Pi; 的 类 型 ， 分 配 所 有 的 标记 L 的 集合 给 每 个 部 件 ， 然 后 检验 所 有 的 关系 ， 
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看 看 是 否 有 的 标记 是 不 可 能 的 ， 把 不 一 致 标记 从 集合 中 去 掉 。 对 每 个 部 件 的 标记 集 进 行 并 行 
过 滤 处 理 。 如 果 有 标记 从 集合 中 被 过 滤 出 来 ， 那 么 就 执行 下 一 个 过 滤 过 程 。 如 果 没 有 标记 发 
生变 化 ， 那 么 过 滤 就 完成 了 。 结 果 也 许 没 有 留 下 可 能 的 解释 ， 也 许 有 好 几 个 解释 。 接 下 来 的 
例子 具有 指导 意义 。 为 了 简化 问题 ， 假 设 没 有 检测 到 不 属于 模型 的 额外 特征 。 和 前 面 一 样 ， 
假设 某 些 特征 可 能 被 遗漏 了 。 

现在 匹配 表 11-1 和 表 11-2 中 的 数据 。 过 滤 过 程 开始 时 ， 对 3 个 孔 H,、 及 ,、H; 的 每 一 个 可 能 
的 所 有 5 个 标记 进行 处 理 。 为 了 更 加 有 趣 、 更 加 实用 ， 克 许 距离 匹配 中 有 土 1 的 公差 。 表 11-4 
显示 的 是 ， 第 一 次 过 滤 后 中 间 结 果 的 3 个 标记 集合 。 表 格 中 的 每 一 项 都 给 出 了 删除 或 保留 标记 
的 原因 。 从 五 ,的 标记 集中 删除 4， 因 为 没有 玉 的 标记 能 解释 关系 26(Hl， 五 ;))。HH, 的 标记 集中 保 
留 4， 因 为 有 标记 EeZ(Z) 能 解释 关系 21(H,，H,)， 标记 Be L(A, REMAX AIH, Hy). H 
的 标记 集中 保留 C， 因 为 有 d(H,，H') = 21 = 22=d(C, D). 

在 第 一 次 过 让 结尾 ， 如 表 11-5 所 示 ， 球 只 有 两 个 可 能 的 标记 ， 丽 和 已 各 一 个 ， 分 别 为 E 和 
8。 在 第 一 次 过 滤 结 尾 去 掉 的 标记 集 ， 将 在 第 二 次 过 滤 的 并 行 处 理 中 使 用 ， 在 第 二 次 过 滤 中 用 
异步 并 行 命令 进一步 过 滤 每 个 标记 集 。 

第 二 次 过 滤 从 L(H,) 中 删除 标记 C， 因 为 使 用 D 作 为 的 标记 不 能 解释 21(H,，H,)。 第 三 次 
过 滤 之 后 ， 附 加 的 过 沽 不 能 改变 任何 标记 集 ， 所 以 过 程 收敛 。 在 这 个 例子 中 ， 标 记 集 都 是 单 
独 表示 一 个 分 配 和 一 个 解释 。 具 体 算法 参见 算法 11.6。 尽 管 松弛 标记 法 简单 、 快 速 ， 但 与 解 
释 树 搜索 相 比 ， 因 为 约 东 只 能 成 对 使 用 ， 松 弛 标记 有 时 会 在 解释 中 带 有 更 多 的 歧义 性 。 松 弛 
标记 法 可 用 作 人 解释 树 搜索 的 预 处 理 内容 ， 它 能 够 充分 减少 树 搜索 中 的 分 支 情 况 。 


表 11-4 ”松弛 标记 法 的 第 一 次 过 滤 中 间 结 果 





B C D ` E 
H, no N 3 no N 3 no N 3 no N 3 21H), A) 
d(A, N) = 26 d(B, N) = 21 d(C, N) = 26 d(D, N) = 26 Ae L(H,) 
26(H,, H;) 
Be L(H;) 
H, 21(H,, H,) no Nə 21(H,, Hy) 
Ee L(A) a(B, N) = 21 DeL(H.) 
12(H,, H3) 12(H,,H;) 
Be L(H;) Be L(H;) 
H, noN3 12(H,, H,) 
d(A, N) = 26 Ae L(A) 
26(H;, H,) 
Ee L(H,) 


me 
表 11-5 松弛 标记 法 第 一 次 过 滤 完 成 





A B C D E 
H, f no no no no possible 
H, possible no possible no no 


H, no possible no no no 


i ne 


Un 
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表 11-6 松弛 标记 法 第 二 次 过 滤 完 成 


A B € D E 
H, no no no no possible 
H, possible no no no no 
H, no possible no no no 


表 11-7 ”松弛 标记 法 第 三 次 过 滤 完 成 


A B Cc D E 
H, no no no no possible 
H, possible no no no no 
H, no possible no no no 


算法 11.6 ”离散 松弛 标记 法 : 对 检测 到 的 图 像 特征 ， 从 可 能 的 标记 中 去 掉 不 兼容 标记 
P, i=1, … , D 是 检测 到 的 图 像 特征 集合 。 
SP), i=1, … ,D 是 最 初 的 兼容 标记 集合 。 
R 是 确定 兼容 性 的 一 个 关系 。 
procedure Relaxation_Labeling(P,S,R); 
{ 
repeat 
for each (Pi, S(P;)) 
{ 
for each label L,e S(P;) 


for each relation R (P;, P,) over the image parts 
if 3 L,,¢S(P,) with R(L,, Lm) in model 
then keep L, in S(P;) 
else delete L, from S(P;) 


} 
until no change in any set S(P;) 
return(S); 


} 





给 出 表 11-5 所 示 的 通过 第 一 次 过 滤 后 ， 在 每 个 标记 集中 删除 或 保留 每 个 标记 的 详细 理由 。 
11.6.3 ”连续 松弛 * 

在 严格 一 致 性 标记 过 程 中 ， 如 树 搜索 和 离散 松弛 ， 部 件 p 的 标记 /在 任何 处 理 阶 段 要 么 是 可 
能 的 ， 要么 是 不 可 能 的 。 只 要 发 现 一 个 部 件 -标记 对 (p，1) 与 某 个 实例 对 不 相 容 ， 就 认为 标 
记 1 对 部 件 p 的 标记 是 非法 的 。 一 个 标记 要 么 可 能 要 么 不 可 能 ， 正 是 这 个 特性 使 前 面 的 算法 成 
为 离散 算法 。 相 对 的 ， 我 们 可 以 把 部 件 -标记 对 (p，/) 与 一 个 实数 结合 ， 实 数 表示 分 配 标记 1 
给 部 件 p 的 概率 或 可 能 性 。 这 种 算法 称 为 连续 算法 。 本 节 我 们 讨论 二 元 对 称 关系 的 连续 松弛 标 
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记 算 法 。 
连续 松弛 标记 问题 是 一 个 6 元 组 CLRP = (P, L，Rp，Rri，PR，C)。 和 前 面 一 样 ，P 是 部 件 
集合 ,，L 是 部 件 的 标记 集合 ，Rbp 是 部 件 关系 ，R, 是 标记 关系 。L 是 部 件 i 的 容许 标记 集合 ，L 通 
常 是 所 有 部 件 i 的 L 的 并 集 。 假 设 IPl = n。PR 是 n 个 函数 的 集合 PR = {pri, … , pr,}， 其 中 pri() 是 
标记 1 对 部 件 i 有 效 的 先 验 概率 。C 是 含 必 个 相 容 系数 的 集合 C= {cj}, i=1,…,n; j=1,…,n。 
cy 可 以 看 成 是 部 件 j 对 部 件 i 的 标记 所 施加 的 影响 。 因 此 ， 如 果 把 约束 关系 Rp 看 成 一 个 图 ， 那 么 
. 6; 就 是 部 件 i 和 部 件 间 连接 边 的 权 值 。 
不 直接 使 用 Rp 和 Ri, 而 是 将 二 者 结合 构造 n? 个 函数 的 集合 R= {ry}, i=1,…, n; j=l, 
n， 其 中 rj(1，7) 表示 部 件 i 使 用 标记 /与 部 分 使 用 标记 的 相 容 性 。 离 散 情况 中 ，rj(1，1) 可 以 
是 1， 表 示 〈(，1D)0， 门 ) AAR; 也 可 以 是 0， 表 示 这 个 组 合 不 相 容 。 连 续 情况 中 ,rj(1，1) 可 
以 是 0 到 1 间 的 任意 值 ， 表 示 部 件 主 贡 间 关系 与 标记 1 和 7 间 关 系 的 相 容 程度 。 相 容 性 信息 可 以 从 
Rp 和 Ri, 中 得 来 ，Rp 和 Ri 本 身 可 能 是 简单 的 二 元 关系 ， 也 可 能 是 属性 二 元 关系 。 在 属性 二 元 关 
系 中 ， 与 一 对 部 件 (或 一 对 标记 ) 相关 联 的 属性 ， 表 示 部 件 对 之 间 具 有 所 需 关系 的 似 然 性 。 
连续 松弛 标记 问题 的 解 ， 与 一 致 性 标记 问题 一 样 ， 是 一 个 映射 上 P 一 L， 这 个 映射 为 每 个 部 件 
分 配 一 个 标记 。 与 离散 情况 不 同 的 是 ， 关 于 映射 /必须 满足 什么 条 件 没 有 具体 的 定义 。 而 /的 定 
义 就 隐 含 在 程序 中 ， 这 个 程序 就 称 为 连续 松弛 (continuous relaxation). 
离散 松弛 算法 迭代 地 从 部 件 i 的 标记 集 L; 中 移 除 可 能 的 标记 ， 同 样 连续 松弛 也 迭代 更 新 与 
每 个 部 件 -标记 对 有 关 的 概率 。 初 始 概 率 由 先 验 概率 的 函数 集 PR 确 定 。 算 法 在 第 0 步 以 初始 概 
率 开始 ， 于 是 对 于 每 个 部 件 i 和 标记 1， 我 们 定义 第 0 步 的 概率 为 : 
pro) = pri(l) (11-18) 
在 松弛 的 第 k 步 迭代 , 用 上 一 步 的 集合 和 相 容 性 信息 计算 新 的 概率 集合 {pA(D)}。 为 了 定义 pA(D)， 
我 们 首先 定义 g4(D) 为 : 
gO= T ty p cate (11-19) 
Lili DERP) VEL; 
函数 qi() 表 示 当 前 概率 对 部 件 i 的 标记 的 影响 ， 其 中 当前 概率 与 受 部 件 约 束 的 其 他 部 件 的 标记 
有 关 。 那 么 更 新 pr 的 计算 公式 可 以 写成 : 
prf (D(1 + gt(D)) 
p> prk(l'y(1+qk)) (11-20) 
上 式 的 分 子 可 以 写成 当前 概率 pri(1) prO 的 和 ， 后 一 项 是 当前 概率 与 其 他 相关 部 件 影 


响 的 乘积 ， 其 他 相关 部 件 的 影响 以 自身 标记 的 当前 概率 为 基础 。 分 母 是 分 子 项 对 部 件 i 的 所 有 
标记 求 和 ， 起 规范 化 作用 。 


pm O= 


连续 松弛 ， 





图 11-20 显 示 由 线段 组 成 的 模型 和 图 像 。 当 两 线段 终点 重合 或 彼此 紧邻 时 ， 认 为 二 者 有 
closadj 关 系 。(a) 构造 模型 部 件 的 属性 关系 Re = (P, pj, Dp; closadj pj}， 以 及 图 像 标记 的 
属性 关系 R= {(， Ill; closadj I}. (b) 如 果 (Pi, Pi) ERp, 定义 相 容 系数 cy = l; 否则 cv = 0。 
你 自己 选 定 一 种 方式 ， 结 合 Re 和 Ri 定义 R。 如 果 pi 与 4 互相 平行 ， 设 pri(1)) 为 1; 如 果 二 者 互相 
垂直 ， 设 pri(D) 为 0;， 如 果 一 条 为 斜 线 ， 另 一 条 为 水 平 线 或 者 竖 直 线 ， 则 设 pri(1)) 为 0.5。 为 模 
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型 部 件 和 图 像 标 记 定义 pr。(c) 执行 几 次 连续 松弛 迭代， 寻找 一 个 从 模型 部 件 到 图 像 标 记 的 








可 能 标注 方法 。 
11.6.4 相关 距离 匹配 

在 很 多 实际 应 用 中 ， 完 全 一 致 性 标记 “|B4 p2 
是 不 现实 的 。 由 于 特征 抽取 误差 、 噪 声 干 
扰 和 遮挡 现象 ， 图 像 会 丢失 或 者 增加 部 分 p3 
内 容 ， 不 能 保持 应 有 的 关系 ， 这 时 可 以 使 模型 部 件 图 像 标记 
用 连续 松弛 法 ， 但 连续 松弛 法 不 能 保证 找 图 11-20 连续 松弛 习题 的 模型 和 图 像 


到 最 优 解 。 在 问题 中 ， 如 果 寻 找 最 优 解 非常 重要 ， 那么 可 以 通过 搜索 找到 从 P 到 IL 的 最 佳 映 射 f， 
也 就 是 保留 最 多 的 关系 ， 或 让 NIL 标 记 的 数量 最 少 化 。 最 早 由 Haralick 和 Shapiro(1981) 定 义 的 
相关 距离 (relational distance) 概念 ， 人 允许 我 们 在 维 数 不 同 、 关 系数 量 任意 的 一 般 情 况 下 定义 
最 佳 映射 。 在 这 之 前 首先 要 对 图 像 或 者 目标 的 相关 描述 (relational description) 进行 定义 。 


定义 89 ”相关 描述 Dp 是 一 个 关系 序列 Dx = {Ri, … ，R,} ， 其 中 对 于 每 个 i = 1, … , 7， 
都 存在 一 个 正 整 数 n;,， 使 得 对 于 集合 P 有 R c P”。P 是 要 描述 的 实体 部 件 的 集合 ， 关 
系 R, 指 明 部 件 间 的 各 种 关系 。 
相关 描述 是 一 种 数据 结构 ， 可 以 描述 二 维 形状 模型 、 三 维 目标 模型 和 图 像 中 的 区 域 等 等 。 
设 D = {Ris Ri} 是 部 件 集 4 的 相关 描述 ， Dg= {Sp *…， 3 是 部 件 集 B 的 相关 描述 。 假 
PIAL = 18|， 如 果 不 相等 ， 就 在 较 小 的 集合 中 添加 虚构 部 件 使 等 式 成 立 。 这 个 假设 是 为 了 保证 
359| ”相关 距离 是 标准 测度 。 
设 /是 由 4 到 8 的 任意 一 一 映射 。 对 任意 RE A”， 其 中 入 是 一 个 正 整 数 ， 关 系 R 和 函数 的 合 
成 运算 (composition) Ro fan F: 
Rof ={(b1,:-:,by)€ BN| 存在 (a,---,ay) ER 
及 f(an) =bn, n =1,---, NJ 
合成 算 子 把 R 的 N 个 组 元 一 一 映射 到 B* 的 N 个 组 元 。 
函数 /把 集合 A 中 的 部 件 映射 成 集合 B 中 的 部 件 。f 关 于 D4 和 Ds 的 第 i 对 对 应 关系 (RAS) 的 
结构 误差 (structural error) 如 下 
Es(f)=|Riof — Sil + ISi o f7! — Ril (11-22) 
结构 误差 表示 , R, 中 有 多 少 组 元 不 能 用 f 上 映射 到 $; 中 , WARS AS DAC REALS WM BIR h. 
结构 误差 的 表达 式 中 只 考虑 了 一 一 对 应 关系 。 
J 关于 D4 和 Ds 的 总 误差 (total error)， 是 每 对 对 应 关系 结构 误差 的 和 ， 也 就 是 


(11-21) 


i 
E(f) = EX(f) (11-23) 
on 


总 误差 定量 给 出 了 两 相关 描述 Ds 和 Ds 间 关于 映射 的 差异 。 
这 样 ，Ds 和 Ds 间 的 相关 距离 GD(D。, Dy) 由 下 式 给 出 : 
GD(Da, Ds) = min E(f) (11-24) 


f:A>B 
onto 


也 就 是 说 ， 相 关 距 离 是 从 4 经 /一 一 映射 到 8 的 最 小 总 误差 。 使 总 误差 最 小 的 映射 称 为 从 Ds 到 
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Ds 的 最 佳 映 射 如 果 有 多 于 一 个 的 最 佳 映射 ， 
可 以 用 纯 关系 范例 之 外 的 附加 信息 来 选择 最 G) (2) C=) (>) 


好 的 映射 。 当 相关 描述 包含 某 些 特 定 的 对 称 


性 时 ， 就 会 出 现 多 于 一 个 的 最 佳 映射 。 


举 儿 个 例子 来 说 明 相 关 距 离 。 图 11-21 显 


示 2 个 有 向 图 ， 每 个 有 向 图 都 有 4 个 节点 。 从 (3) OG Q 


A={1, 2, 3, 4)3IB = {a, b, c, 4d) 的 一 R s 
个 最 佳 映 射 是 {KR1)= a, A2) =b, 3) =c, f 图 11-21 两 个 相关 距离 为 3 的 有 向 图 


(4) = d }。 关 于 这 个 映射 我 们 有 


IR o f — S| = KA, D, 3)G, 4)(4, 2)} o f — {(a, b)(b, c)(c, b)(d, b)}| 
= |{(a, b)(, c)(c, d)(d, b)} — {(a, b)(b, c)(c, b)(d, b)}| 


= I{(c, gd) 
一 1 


[So fT — R| = |{(a, b)(b, c)(c, b)(d, b)} o fT} — {(1, 22, 3)(3, 4)(4, 2)} 
= |{(1, 2)(2, 3)(3, 2)(4, 2)} — {(1, 2)(2, 3)(3, 4)(4, 2)]| 


= I{G, 2 
=1 


E(f) =|Rof ~S|+|Sof'—R| 


=14+1 
=2 


因为 /是 最 佳 映 射 ， 所 以 相关 距离 也 是 2。 

图 11-22 给 出 一 套 目标 模型 Mi M, 
M; 和 M4， 它 们 的 基本 部 件 是 图 像 区 域 。 
图 中 有 两 个 关系 : 连接 和 平行 。 基 本 
部 件 之 间 都 是 二 元 关系 。 考 虑 前 两 个 
模型 M, 和 M,。 最 佳 映 射 喘 射 基本 部 件 
1 到 1'"、2 到 2' 和 3 到 3'。 在 该 映射 下 ， 
连接 关系 是 同 构 关系 。 模 型 Mi 中 的 平 
行 关系 《2，3)， 在 模型 Ms 中 的 2' 和 3 
之 间 不 再 保持 平行 关系 ， 所 以 M1 和 M， 
之 间 的 相关 距离 刚好 是 1。 现 在 考虑 模 
型 MI 和 M3。 最 佳 映 射 映射 1 到 1”"、2 到 
2" 和 3 到 3”"、 虚 拟 基本 部 件 到 4”"。 在 该 
映射 下 ,平行 关系 是 同 构 关系 ， 但 M， 
比 Ms 中 多 出 一 个 连接 关系 。 相 关 距 离 
也 是 1。 

最 后 考虑 模型 M; 和 Mi。 最 佳 映射 


1,2 (1 3”) 
T 3 (1",4") 
平行 关系 平行 关系 
(2, 3) (2", 3") 
MI Ms 
连接 关系 


M2 M; 


图 11-22 ”四 个 目标 模型 。M 到 M, 以 及 M, 到 M; 的 相关 距离 
是 1。MM 到 MM 的 相关 距离 是 6 


Ww 
N 
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i ee i ae 
映射 1" 到 1*、27 到 2*、37 到 3*、47 到 4*、5 到 5* 和 6 到 6* 。(5s 和 6 是 虚拟 基本 部 件 。) 关于 
这 个 映射 我 们 有 

IRi o f — Sy] = K0”, 2)”, 3”)(1", 4")} 0 f 
— (4*, 3°)", 6°)", S*)(1*, 6) 1", 2°) 1*, 3} 
= |{(1*, 2")(1*, 3*)(1*, 4*)} 
= LS 6)", 2°90", 3H 
= |{(1", 4*)}| 
= 


ISi o fT! — Ril = [{(4", 5*)(4*, 6*)(1*, 5*)(1*, 6*)(1*, 2*)(1*, 3*)}o f7! 
一 {G 20”, 31", 4”) 
= |{(4 5a) (4, 64)(1", 5a)”, 64)(1”, 2")(1”, 3”)} 
— {rr Se ae 
= I{(4", 54)(4", 6a)”, 5a) 1”, 6a) 
=4 
IR2 0 f — S2| = |{(2", 3”)} o f — {2*, 3*)(5*, 6*)}| 
= |{(2*, 3°)} — {(2*, 3*)(S*, 6*)}| 
= |9| 
=0 
|S20 fT! — Rol = |{(2*, 3*)(5*, 6*)} o f7! — {(2”, 3”)}| 
= |{(2", 3”)(Sa, 6a)} — {(2”, 3”)} 
= |{(Sa, 6a)}| 
Suh 
Es(f)=14+4=5 
E3(f) =0+1=1 
E(f) =6 


相关 距离 树 搜索 


修改 解释 树 搜索 算法 ， 寻 找 两 个 结构 描述 间 的 相关 距离 ， 并 确定 最 佳 映射 。 


单 向 相关 距离 
公式 〈11-24) 定义 的 相关 距离 ， 使 用 了 双向 映射 误差 ， 这 在 比较 两 个 孤立 目标 时 很 有 效 。 
当 将 模型 与 图 像 进行 匹配 时 ， 和 希望 只 用 单 向 映射 误差 ， 检验 图 像 中 有 多 少 模型 关系 ， 而 不 做 
反 向 的 工作 。 为 了 进行 模型 -图 像 匹 配 ， 请 重新 定义 单 向 相关 距离 。 
相关 距离 中 的 NIL 映 射 
公式 (11-24) 定义 的 相关 距离 ， 没 有 明确 处 理 NIL 标 记 。 如 果 部 件 有 一 个 NIL 标 记 ， 那 
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么 任何 关系 (i, j) 都 会 引起 错误 ， 因 为 (fH), NIL) 不 会 出 现 。 修 改 相关 距离 的 定义 ， 把 
NIL 标 记 作为 错误 只 计数 一 次 ， 并 且 不 再 因 NIL 标 记 引 起 的 关系 丢失 而 进行 惩罚 。 


习题 11.19 属性 相关 距离 


公式 (11-24) 定义 的 相关 距离 ， 没 有 明确 处 理 属性 关系 。 在 属性 关系 中 ， 除 部 件 序列 外 ， 
每 个 组 元 还 包含 一 个 或 多 个 关系 属性 。 如 线段 的 连接 关系 也 许 还 有 连接 线段 间 夹 角 属 性 。 形 
式 上 ， 部 件 集 P 和 属性 集 4 上 的 一 个 属性 z 元 关系 R 是 一 个 集合 ， RS 已 x4， ， 其 中 m 是 非 负 整 
数 ， 表 示 关 系 的 属性 数 。 依 据 属 性 关系 ， 请 修改 相关 距离 的 定义 。 


11.6.5 相关 索引 

有 时 即使 采用 松弛 过 滤 法 ， 树 搜索 也 显得 太 慢 ， 尤 其 是 当 比 较 图 像 与 大 型 模型 数据 库 时 。 
对 于 用 标记 关系 进行 的 结构 描述 ， 可 以 用 一 个 更 简单 的 表决 方案 近似 相关 距离 。 直 观 上 ， 假 
设 观 察 到 两 个 同心 圆 和 具有 一 条 公共 边 的 两 个 90" 直 角 。 和 希望 快速 找到 具有 这 些 结构 的 所 有 模 
型 ， 并 希望 在 更 多 细节 上 能 与 这 些 模 型 相 匹 配 。 为 了 做 到 这 一 点 ， 我 们 可 以 建立 一 个 索引 ， 
通过 索引 查找 具有 分 图 结构 的 模型 。 首 先 查找 包含 两 个 同心 圆 特 征 的 所 有 模型 ， 并 且 给 每 个 
模型 投 上 一 票 ， 然 后 查找 包含 两 相连 90" 角 的 所 有 模型 ， 凡 是 两 次 都 被 查 到 的 模型 将 得 到 两 票 。 
如 采 在 识别 前 ， 从 每 个 模型 中 抽取 重要 的 二 元 关系 ， 并 把 这 些 关系 记录 在 查找 表 中 ， 离 线 建 
立 一 个 索引 ， 那 么 这 些 查 找 就 可 以 快速 完成 。 

设 DB = {Mi，M,,…，M,} 是 含 T 个 目标 模型 的 数据 库 ， 每 个 目标 模型 M, 由 特征 部 件 P 以 及 
标记 关系 R, 集 合 而 成 。 为 了 解释 起 来 更 加 简单 ， 假 设 每 个 部 件 只 有 一 个 标记 ， 而 不 是 属性 向 
量 ; 假设 关系 都 是 二 元 关系 ， 同 样 每 个 组 元 都 只 有 一 个 标记 。 在 这 种 情况 下 ， 模 型 可 以 用 2- 图 
(2-graph) 的 集合 来 表示 。 每 个 2- 图 有 两 个 节点 和 两 条 有 向 边线 组 成 。 每 个 节点 代表 一 个 部 件 ， 
每 条 边线 代表 一 个 有 向 二 元 关系 。 节 点 的 值 是 部 件 的 标记 ， 而 不 只 是 唯一 的 标示 符 。 同 样 边 
线 的 值 是 关系 的 标记 。 比 如 一 个 节点 可 能 代表 椭圆 而 另 一 个 则 可 能 代表 一 对 平行 线 。 从 平行 
线 市 点 到 椭圆 节点 的 连 线 表示 关系 “包含 "， 相 反方 向 上 的 连 线 表示 关系 “被 包含 ”。 

相关 索引 在 预 处 理 阶 段 建立 大 型 散 列表 。 用 2- 图 字符 串 为 散 列表 建立 索引 。 完 成 之 后 可 
以 查寻 表 中 的 任何 2- 图 ， 并 快速 检索 包含 特殊 2- 图 的 所 有 模型 的 列表 清单 。 在 我 们 的 实例 中 ， 
可 以 检索 到 两 平行 线 间 有 一 椭圆 的 所 有 模型 。 在 根据 图 像 识 别 目标 时 ， 要 抽取 特征 和 计算 所 
有 表示 图 像 的 2- 图 。 数 据 库 中 的 每 个 模型 都 有 一 个 累加 器 ， 一 开始 都 清 零 。 然 后 用 图 像 中 的 2- 
图 搜索 散 列表 ， 检 索 出 关系 模型 的 列表 清单 ， 并 对 每 一 个 模型 投票 。 离 散 算法 的 每 次 投票 就 
是 加 一 操作 ， 概 率 算法 则 是 加 上 一 个 概率 值 。 在 对 所 有 2- 图 进行 投票 操作 后 ， 得 票 最 多 的 模 
型 就 是 验证 候选 模型 。 
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非 线 性 变形 函数 也 是 很 重要 的 。 有 时 我 MEREMERE 

们 要 对 图 像 中 的 非 线性 畸变 进行 矫正 ， 如 鱼 | RTS 

眼镜 头 的 径 向 畸变 。 有 时 我 们 又 希望 对 图 像 TH HRA 
HEF 


进行 艺术 性 变形 处 理 。 图 11-23 显 示 一 种 非 线 
性 变形 , 它 把 一 个 规则 网 格 映射 到 一 个 圆柱 上 ， 11-23 
其 效果 等 同 于 把 一 幅 平面 图 像 卷 到 一 个 圆柱 ( 左 ) 规则 网 格 

上 ， 并 在 远 处 进行 观察 。 图 11-24 是 把 同样 的 ( 右 ) 卷 在 圆柱 体 上 的 变形 网 格 





Ww 
W 








270 Zue 





变形 应 用 到 一 张 20 美 元 钞票 上 。 rs i bd 
算 ， 在 输入 图 像 的 基础 上 产生 一 幅 变 了 形 的 输 g 
出 图 像 ， 效 果 就 像 是 卷 在 一 个 圆柱 上 。 图 11-24 ™ 

显示 出 两 个 变形 结果 。 最 右边 的 图 像 变形 采用 

的 圆柱 半径 要 比 中 间 变 形 采用 的 半径 小 。 

图 11-25 显 示 的 是 如 何 推导 一 个 圆柱 变 
形 。 为 变形 选 定 一 个 轴 (由 xz 决定) 和 一 个 or > 
宽度 W。W 对 应 圆柱 体 周 长 的 1/4。 输 入 图 像 A a 
长 度 为 4 的 部 分 卷 在 圆柱 上 ， 然 后 投影 到 输 5.) 20 美 元 名 村 的 中 国 部 人 国生 
出 图 像 。 事 实 上 ，d 对 应 长 度 x - x。， 其 中 x。 (中 ) 安德鲁 . 杰克 进 的 头像 ， 卷 在 周 长 640 像 素 的 圆柱 上 
是 圆柱 轴 的 x 坐标 。 变 形 不 改变 输入 图 像 点 E) 同 中 图 ， 只 是 圆柱 周 长 为 400 像 素 
的 y 坐 标 ， 所 以 有 v = y。 由 图 可 得 到 下 列 关系 式 。 首 先 W = (rn/2)r， 即 W 等 于 1/4 的 圆柱 周 长 。d 
与 W 的 关系 是 d/W = W(r/2)， 而 sing = d'/r。 由 上 述 几 个 等 式 可 得 d = x - x= (2W/n) 
arcsin((n/2W)(u 一 wu0))。 当 然 ,d' =u- uy=Uu-X. 








输入 图 像 输出 图 像 


图 11-25 把 左 侧 的 输入 图 像 卷 到 中 间 圆 柱 上 就 产生 了 右 侧 的 输出 图 像 。 
输入 图 像 中 的 距离 d 在 输出 中 图 像 中 变 为 d' 

已 知 输 出 图 像 的 坐标 履 ， 裤 ， 变 形 参数 zx 和 了 全， 可 以 用 公式 计算 输入 图 像 的 坐标 5， 中 。 
这 看 起 来 是 逆向 的 ， 为 什么 不 从 输入 图 像 变 换 到 输出 图 像 呢 ? 无 论 是 否 这 样 做 ， 都 不 能 保证 
输出 图 像 的 每 个 像素 都 是 唯一 确定 的 。 对 于 数字 图 像 ， 我 们 希望 输出 图 像 的 每 个 像素 都 只 计 
算 一 次 ， 而 且 其 像素 值 是 根据 输入 图 像 算出 的 ， 如 算法 11.7 所 示 。 另 外 这 样 很 容易 使 输出 图 
像 的 像素 数 多 出 或 者 少 于 输入 图 像 的 像素 数 。 解 决 方法 就 是 在 生成 输出 图 像 时 ， 向 输入 图 像 
进行 逆 映 射 ， 然 后 再 对 输入 图 像 进行 采样 。 

算法 11.7 圆柱 变形 运算 

"Ilx, y] 是 输入 图 像 。 

xo 是 轴线 位 置 。 


We tt 
"Ilu, v] 是 输出 图 像 。 
procedure Cylindrical_Warp(I[x, y]) 
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{ 
r = 2W/n; 
for u := 0, Nrows- 1 
for v := 0, Ncols- 1 
{ 
2I[u, v] = 0; VER 
if (lu-u! < r) 
{ 
X = X+ r arcsin((u— xo)/r); 
yev 
"I[u, v] = ‘I[round(x), round(y)]; 
} 
} 
return (7I[u, v]); 


} 


(a) 求 一 个 变换 , 把 输入 图 像 的 圆 形 域 映射 到 半球 上 , 然后 再 把 这 个 半球 投影 成 一 幅 图 像 。 
原 图 像 中 的 圆 形 域 通过 中 心 (x y) 和 半径 ro 确定 。(b) 编写 计算 机 程序 实现 这 个 映射 。 
11.7.1 径 向 畸变 矫正 

多 数 镜头 都 存在 径 向 畸变 ， 对 人 类 感官 来 说 影响 不 大 ， 但 进行 光度 测量 时 如 果 不 矫 正 的 话 
会 产生 很 大 误差 。 物 理学 上 已 经 推出 ， 图 像 点 的 径 向 畸变 与 该 点 到 光 轴 的 距离 成 正比 。 图 11-26 
显示 两 种 常见 的 畸变 情况 ， 以 及 矫正 后 图 像 。 如 果 光 轴 接 近 图 像 中 心 穿 过 ， 那 么 对 图 像 各 点 进 
行 平移 就 能 够 实现 矫正 ， 位 移 的 大 小 与 像素 到 中 心 的 距离 平方 成 正比 。 这 个 矫正 不 是 一 个 线性 
变换 ， 因 为 图 像 上 各 点 的 位 移 量 是 不 同 的 。 有 时 用 径 向 距离 的 更 高 偶 次 徊 进行 矫正 ， 如 公式 
(11-25) 的 数学 模型 所 示 。 设 [x.，y.] 为 图 像 中心 ， 光 轴 经 [x.，y.] 穿 过 图 像 。 假 设 只 用 径 向 距离 
的 前 两 项 偶 次 宕 计算 径 向 畸变 ， 则 对 图 像 点 的 矫正 计算 如 下 。 其 中 常数 cx 和 c, 的 最 佳 取 值 ， 可 
以 通过 分 析 已 知 控制 点 的 径 向 位 移 得 到 ， 也 可 以 在 标定 过 程 中 通过 最 小 二 乘 拟 合 得 到 。 
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图 11-26 两 类 径 向 畸变 ， 左 边 是 桶 形 畸 变 ， 中 间 是 枕 形 畸变 ， 通 过 变形 运算 可 以 对 两 种 
畸变 进行 矫正 并 生成 右边 的 图 像 
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R= V((x — xe)? + Y — ye)?) 
D, = (c2 R? R4 
(czR + c4R*) (11-25) 
xX = Xe + (x — xc) D, 
Y = yc + (Y — Ye) D, 


11.7.2 多 项 式 映 射 
不 严重 的 全 局 性 失真 可 以 利用 多 项 式 映射 的 方法 进行 矫正 ， 如 公式 (11-26) 所 示 的 二 元 
二 次 多 项 式 就 足够 了 。 为 适应 不 同 的 几何 因素 ， 要 对 12 个 系数 进行 估计 。 为 了 估计 这 些 系数 ， 
至 少 需要 6 个 控制 点 在 映射 前 后 的 坐标 。 实际 操作 时 要 采用 更 多 的 控制 点 ， 每 个 控制 点 生成 两 
个 方程 。 如 果 只 取 公 式 (11-26) 的 前 三 项 ， 则 这 个 映射 就 是 仿 射 映射 。 
u = ao + aox 十 aol》 十 QiiXy + az0x? 十 aozy2 


( 11-26) 
v = bo + biox + bory + biixy + byx? + boy? 





如 果 公 式 (11-25) 中 的 cs=0， 证 明 径 向 畸变 模型 可 通过 公式 (11-26) 的 多 项 式 映射 得 到 。 
11.8 总 结 

在 2D 匹 配 的 主题 下 ， 本 章 讨 论 了 很 多 概念 。 一 个 主题 内 容 是 通过 变换 进行 2D 上 映射。 变换 
是 比较 简单 的 图 像 处 理 运算 ， 可 用 于 从 图 像 中 抽取 一 个 区 域 ， 在 同一 坐标 系 中 对 两 幅 图 像 进 行 
配 准 ， 去 除 2D 图 像 中 的 失真 或 者 使 2D 图 像 发 生 形变 。 人 们 开发 出 了 进行 这 些 变换 的 代数 运算 
工具 ， 对 各 种 方法 和 应 用 情况 进行 了 讨论 。 在 第 13 章 中 对 这 些 内 容 进 一 步 扩展 ， 研 究 3D 场 景 
和 3D 模 型 中 点 的 映射 关系 。 本 章 的 第 二 个 主题 内 容 是 ， 通过 与 2D 模 型 进行 对 应 ， 从 而 对 2D 图 
像 进 行 解 释 。 比 对 识别 (recognition-by-alignment) 是 一 般 的 范例 。 通过 找到 一 个 模型 和 一 个 
RST 变 换 来 解释 图 像 ， 其 中 的 RST 变 换 把 已 知 的 模型 结构 映射 到 图 像 结 构 。 文中 给 出 了 几 种 不 
同 的 算法 ， 包 括 位 姿 聚 类 算法 、 解释 树 搜索 算法 和 局 部 特征 焦点 算法 。 也 给 出 了 离散 松弛 算法 
和 相关 匹配 算法 。 尽管 这 两 种 方法 是 在 有 约束 的 几何 关系 下 引出 的 ， 而 实际 上 它们 可 用 于 一 般 
情况 。 当 拓扑 关系 本 身 比 度量 关系 更 稳健 时 ， 相关 匹配 就 应 该 比 刚性 对 比 更 稳健 。 由 镜头 失真 、 
视 轴 倾 斜 和 量化 效应 等 引起 的 图 像 失真 ， 会 导致 度量 关系 失效 。 而 拓扑 关系 如 端点 相同 、 连接 、 
相 邻 以 及 包含 等 ， 通 常 不 受 这 类 失真 的 影响 。 基于 图 像 或 模型 零件 上 的 拓扑 关系 成 功 匹 配 ， 可 
用 于 大 量 的 匹配 点 ， 然后 再 用 这 些 匹 配点 建立 一 个 多 参数 映射 函数 ， 以 补偿 度量 上 的 失真 。 实 
际 应 用 中 可 直接 采用 本 章 介绍 的 计算 方法 。 第 14 章 中 将 把 这 些 方法 扩展 到 3D 情 况 。 
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第 12 章 2D 图 像 中 的 3D 信 息 


本 章 研究 2D 图 像 中 出 现 的 一 些 现象 ， 这 些 现象 揭示 了 图 像 中 隐 含 的 3D 结 构 特征 。 人 类 能 
够 根据 视觉 输入 感知 和 分 析 3D 世 界 的 结构 信息 。 人 类 的 这 种 能 力 非常 神奇 ， 运 用 起 来 毫 不 费 
力 ， 但 人 类 关于 自己 的 视觉 感知 机 制 仍然 知之 甚 少 。 首 先 我 们 要 强调 以 下 三 点 : 第 一 ， 虽 然 
这 里 的 讨论 要 用 到 推理 分 析 ， 但 人 类 能 够 很 容易 感知 出 结构 信息 而 不 需要 有 意识 地 进行 推理 。 
关于 人 类 视觉 的 很 多 方面 我 们 理解 得 还 不 是 很 清楚 ; 第 二 ， 尽 管 我 们 能 够 建立 几 种 视觉 线索 
的 模型 ， 但 对 复杂 场景 的 解释 需要 同时 使 用 多 个 线索 ， 这 是 一 个 竞争 和 协作 的 过 程 ; 第 三 ， 
我 们 的 兴趣 点 不 是 为 了 解释 人 类 的 视觉 行为 ， 而 是 为 了 解决 有 限 范 围 内 的 应 用 问题 ， 这 有 限 
的 范围 允许 我 们 利用 简单 的 一 组 线索 进行 研究 。 

本 章 首 先 对 用 到 的 方法 做 简单 说 明 。 下 一 节 讨论 本 征 图 像 (intrinsic image)， 这 是 一 种 中 
间 的 2D 表 示 ， 存 储 了 3D 场 景 重要 的 局 部 特征 。 然 后 研究 纹理 特征 、 运 动 特征 以 及 形状 特征 ， 
这 些 特 征 使 我 们 能 够 从 2D 图 像 推断 出 场景 的 3D 特 征 。 本 章 重点 讨论 对 原始 信息 的 识别 问题 ， 
而 不 把 建立 数学 模型 做 为 讨论 的 重点 ， 但 在 本 章 的 最 后 要 介绍 一 下 数学 建 模 。 这 些 模型 可 用 
于 透视 成 像 、 通 过 体 视 计 算 深 度 以 及 通过 薄 透 镜 公式 描述 视 场 与 分 辨 率 和 图 像 模 糊 的 关系 。 
其 他 数学 建 模 留待 第 13 章 介绍 。 


12.1 本 征 图 像 

可 以 认为 3D 场 景 是 由 目标 面 元 (表面 元 素 ) 组 成 的 ， 这 些 面 元 受 光 源 照 亮 ， 在 2D 图 像 中 
投影 为 一 个 区 域 。3D 面 元 间 的 边界 或 者 面 元 上 的 照明 发 生变 换 ， 都 会 在 2D 图 像 中 出 现 反 差 边 
或 者 是 轮廓 (coutour)。 对 如 图 12-1 和 12-2 所 示 的 简单 场景 ， 所 有 的 面 元 及 其 光照 都 可 以 通过 
场景 描述 表示 出 来 。 有 的 科学 家 相信 ， 人 类 低层 视觉 系统 的 主要 功能 是 构造 场景 的 表示 ， 并 
把 它 作 为 进一步 处 理 的 基础 。 这 是 一 个 很 有 趣 的 问题 ， 但 这 个 问题 我 们 不 去 管 它 ， 而 是 继续 
讨论 我 们 关心 的 问题 。 我 们 用 这 样 的 表示 来 描述 场景 、 描 述 图 像 和 进行 机 器 分 析 ， 而 不 考虑 
它 是 否 符合 人 类 视觉 系统 的 计算 结果 。 











图 12-2 带 轮廓 标记 的 2D 图 像 ， 反 映 了 2D 反 差 与 3D 
现象 (如 表面 方向 和 光照 情况 ) 之 间 的 关 
系 。 表 面 折 痕 用 “+” 或 “- ”表示 ， 单 箭 
图 12-1 (图 像 由 Deborah Trytten 提 供 ) 头 “>” 表 示 右 边 表面 形成 的 丸 边 ， 双 箭头 
(E) 三 个 积木 块 的 亮度 图 像 “>>” 表 示 右 边 表面 的 光滑 愤 边 。 阴 影 边 界 
(Æ) 5X5 Prewitt 边 沿 检测 结果 用 “S” 表 示 ， 反 射 边界 用 “M?” 表示 
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图 12-2 显 示 一 只 鸡蛋 和 一 个 空 纸杯 放 在 桌子 的 一 角 。 目 前 的 视点 情况 是 ， 鸡 蛋 和 杯子 都 挡 
住 了 桌面 。 区 域 边 缘 上 的 箭头 指明 哪个 面 元 遮挡 了 另 一 个 面 元 ， 箭 头 方向 指明 哪个 是 遮挡 表 
面 。 习 惯 上 ， 如 果 我 们 沿边 缘 前 进 时 遮挡 表面 位 于 边缘 的 右 侧 ， 则 前 进 方向 就 是 箭头 的 方向 。 
BATA “>” RRDA (blade) ， 就 像 刀 刃 那 样 。 当 沿 刃 边 前 进 时 遮挡 表面 的 方向 改变 不 大 。 
当 越过 边缘 时 ， 被 遮挡 表面 的 方向 与 遮挡 表面 的 方向 无 关 。 图 12-1 的 右 图 中 ， 所 有 的 目标 边界 
都 是 丸 边 。 图 12-2 中 ， 靠 下 的 桌子 边缘 形成 一 个 刃 边 ， 因 为 桌 边 是 很 窄 的 平面 片 ， 它 挡住 了 未 
知 的 背景 。 纸 杯 的 上 部 边缘 是 一 个 丸 边 ， 因 为 该 表面 挡住 了 背景 ， 并 且 沿边 缘 前 进 时 表面 方 
向 相同 。 更 有 趣 的 是 杯子 前 表面 上 部 的 那 条 边 ， 是 一 个 刃 边 ， 因 为 表面 挡住 了 杯子 的 内 部 。 

NFK >>” RRX (limb), HMAK MIRIDAE RAER, RAEN 
肢 那样 。 在 2D 图 像 中 沿 愤 边 边界 前 进 时 ， 相 应 3D 面 元 的 方向 发 生变 化 ,并且 方 向 与 视线 垂直 。 
表面 本 身 是 自 这 挡 (self-occulding) 的 ， 意 思 是 随 着 3D 面 元 向 目标 后 面 移动 并 逐渐 从 2D 视 图 
中 消失 ， 面 元 方向 进行 连续 平滑 的 变化 。 刃 边 是 3D 目 标的 真正 边缘 ,而 六 边 则 不 是 。 图 像 中 ， 
鸡蛋 的 全 部 边界 都 是 经 边 ， 杯 子 也 有 两 条 独立 的 权 边 。 艺 术 家 们 知道 ， 当 逆 着 光线 渐渐 靠近 
费 边 时 ， 表 面 会 渐渐 变 暗 。 通 常 称 丸 边 和 翼 边 为 跳跃 边缘 (jump edge)， 即 从 遮挡 表面 到 后 
面 的 被 遮挡 目标 之 间 有 一 个 不 定 深 度 的 跳 变 。 在 图 12-10 中 可 以 看 到 更 复杂 的 场景 ， 其 中 包含 
很 多 与 图 12-2 中 类 型 相同 的 边缘 线条 。 如 灯 和 灯 柱 有 辟 边 ,左边 建 筑 物 的 最 右 侧 边缘 是 刃 边 。 

表面 突然 变化 或 者 两 个 表面 相连 接 时 就 会 形成 折 痕 (crease)。 图 12-2 中 ， 在 桌 边 及 杯 与 
桌 连 接 处 形成 折 痕 。 桌 边 处 的 表面 是 向 外 凸 的 ， 用 “+” 表 示 ; 杯 与 桌 相连 处 的 表面 是 向 内 加 
的 ， 用 “- ”表示 。 注 意 ， 机 器 视觉 系统 从 传感器 数据 开始 自 底 向 上 进行 分 析 ， 它 并 不 知道 场 
景 中 包含 有 杯子 和 桌子 。 人 类 也 不 知道 杯子 是 否 粘 在 桌子 上 ， 或 者 干脆 杯 和 桌 就 是 一 个 整体 ， 
但 我 们 的 经 验 倾向 于 这 种 自 上 向 下 的 解释 过 程 ! 虽然 不 是 经 常 发 生 ， 但 折 痕 常常 引起 2D 图 像 
中 的 光 强 或 者 反差 发 生 明 显 变化 ， 这 是 因为 一 个 面 常常 比 另 一 个 面 更 直接 地 对 着 光线 。 


e 


在 面前 的 桌 上 放 一 个 杯子 ， 闭 上 一 只 眼睛 看 它 。 用 一 支 铅笔 接触 杯子 侧面 ， 用 铅笔 表示 
表面 法 线 的 方向 ， 检 验 铅笔 是 否 与 你 的 视线 垂直 。 












图 12-1 中 的 三 角 块 ， 在 边缘 图 像 中 形成 六 个 轮 廊 线 氏 这 六 个 线段 的 标记 各 是 什么 ， 





参考 第 1 章 中 的 图 1-7， 其 中 含 三 个 机 器 零件 。 (图 像 中 的 大 部 分 轮廓 线 用 白色 突出 表示 。) 
画 出 所 有 的 轮廓 并 对 它们 进行 标记 。 有 足够 的 标记 来 表示 所 有 的 轮廓 线段 吗 ?是 否 用 到 了 我 
们 定义 的 所 有 标记 ? 

其 他 两 种 图 像 轮 廓 不 是 由 3D 表 面 形状 引起 的 。 表 面 反照 率 的 不 同 会 引起 表面 出 现 反光 痕 
迹 “M”。 例 如 图 12-2 中 杯子 上 的 痕迹 ， 当 杯子 材料 比较 亮 时 痕迹 就 为 深 色 。 光照 边界 “I” 或 
明 影 “S” 是 由 到 达 表 面 的 光照 变化 引起 的 ， 是 由 其 他 目标 的 阴影 形成 的 。 

下 面 定义 的 概念 用 来 描述 表面 结构 。 有 一 点 要 明白 ,我们 所 表示 的 3D 场 景 结构 与 某 个 2D 
视图 有 相似 的 视觉 效果 。 这 些 3D 结 构 常常 会 在 亮度 图 像 中 产生 可 检测 的 轮廓 线 。 


定义 90 折 痕 是 指 表 面 发 生 突变 的 地 方 或 者 是 两 个 不 同 表面 的 交接 处 。 折 痕 两 边 ， 
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表面 上 的 点 是 连续 的 ， 但 表面 法 线 方向 不 是 连续 的 。 折 痕 的 表面 几何 可 通过 视点 邻 
域 看 出 来 。 当 然 ， 要 求 折 痕 在 该 视点 下 是 可 见 的 。 

定义 91 ”一 个 连续 表面 遮挡 住 后 面 的 男 一 个 表面 ， 当 沿 表面 边界 前 进 时 ， 表 面 法 线 
方向 的 变化 是 平滑 连续 的 ， 并 与 视线 方向 相对 ， 这 时 就 形成 刃 边 。 图 像 中 的 刃 边 轮 
廓 是 光滑 的 曲线 。 

定义 92 ”一 个 连续 表面 遮挡 住 后 面 的 另 一 个 表面 ， 当 沿 表 面 轮廓 前 进 时 ， 表 面 法 线 
方向 平滑 变化 ， 并 且 与 视线 方向 垂直 ， 因 此 表面 也 会 遮挡 住 它 自己 ， 这 时 就 形成 贾 
边 。 边 界 图 像 是 光滑 的 曲线 。 

定义 93 ”反光 痕迹 是 由 于 表面 材料 的 反射 变化 引起 的 。 例 如 表面 涂 了 不 同 颜料 或 者 
由 不 同 材料 拼接 而 成 时 ， 就 会 出 现 反 光 痕 迹 。 

定义 94 ”由 于 照明 发 生变 化 或 者 另 一 目标 产生 阴影 ， 使 表面 光照 发 生 突变 ， 就 会 产 
生 光 照 边界 ， 

定义 95 ”跳跃 边缘 指 愤 边 或 者 丸 边 ， 当 越过 遮挡 目标 表面 和 被 遮挡 背景 表面 之 间 的 
边缘 或 轮 廊 时， 深度 是 不 连续 的 。 








| 标记 立方 体 图 像 的 线段 。 


按 一 般 方 位 画 一 个 立方 体 ， 显 示 出 3 个 面 ，9 条 线段 和 7 个 角 。 (a) (LIT MUP TEE 
中 ， 从 {+，-，>，>>} 中 给 9 条 线段 各 分 配 一 个 标记 ， 所 分 配 的 标记 要 对 产生 线段 的 3D 结 构 做 
出 恰当 的 解释 。(b) 假设 立方 体 置 于 平坦 桌面 上 ， 在 此 条 件 下 重复 (a) 的 过 程 。(c) 假设 立 
方 体 实际 上 是 挂 在 墙 上 的 恒温 器 ， i mi nlite 


See 标记 常见 物体 的 图 像 。 
标记 图 12-3 中 的 线段 。 物 体 是 桌子 上 带 商 标 X 的 未 开启 的 苏打 水 久 ， 以 及 打开 的 空 盒子 。 


第 5 章 讨论 了 检测 亮度 图 像 中 反差 点 的 方法 。 第 
10 音 讨论 了 轮廓 跟踪 和 轮 廊 表 示 。 不 幸 的 是 , 儿 种 CO 
不 同 的 3D 现 象 绑 引起 2D 图 像 中 的 相同 效果 。 例 如 对 
于 亮度 图 像 中 的 一 条 2D 轮 廓 线 ， 如 何 确定 它 究竟 是 
由 实际 目标 引起 的 ， 还 是 由 另 一 个 目标 的 影子 引起 
的 ? 考虑 哺 天 拍摄 的 小 树林 图 像 。( 或 者 参见 第 5 章 





<i SRE ASRS SESE SSS SEES ESTEE LEE LEONEL. 








后 面 骆驼 在 海滩 上 的 图 像 ， 骆 驼 的 四 上肢 图 像 就 出 现 图 12-3 

了 这 种 情况 。) 对 于 定义 草地 上 的 树 影 (“S”)， 通 过 CE) 带 商 标 X 的 未 开启 的 苏打 水 摔 是 封闭 的 
边缘 检测 可 能 比 用 树干 形成 的 翼 边 (>>) 效果 更 好 。 Wet het tats A 
在 图 像 解释 中 ， 如 何 区 分 阴影 与 树 的 图 像 ， 或 者 区 teers 


分 阴影 和 人 行道 的 图 像 ? 





联想 第 5 章 学 过 的 内 容 ， 解 释 为 什么 在 图 像 中 检测 树干 的 影子 比 检测 树干 本 身 更 容易 。 
有 的 研究 人 员 提 议 开发 能 生成 本 征 图 像 的 感知 系统 。 本 征 图 像 的 每 个 像素 应 该 包含 四 个 
本 征 场景 值 : 


Ww 
eN 
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。 场 景 面 元 的 深度 (range, depth) 

。 场 景 面 元 的 方向 (orientation ，surface normal ) 
。 场 景 面 元 接收 的 照度 (illumination ) 

。 场 景 面 元 的 反照 率 (albedo，surface reflection) 
人 类 擅长 于 根据 图 像 像素 的 周围 情况 对 


照度 
像素 进行 解释 。 本 征 图 像 的 自动 构建 仍然 是 反照 率 ; 6 6 
一 个 研究 课题 ， 但 同 以 前 相 比 研究 热度 已 经 Amis 516 6: 
有 所 下 降 。 很 多 图 像 分 析 任务 并 不 需要 本 征 Beit pis sity 
图 像 。 第 13 章 将 介绍 构建 本 征 图 像 或 部 分 本 A 
征 图 像 的 几 种 方法 。 与 图 12-2 对 应 的 本 征 图 ee oe al 
像 如 图 12-4 所 示 。 图 中 的 数字 只 说 明 包含 鸡 a 
蛋 末端 的 一 小 条 本 征 图 像 的 信息 。 沿 着 桌面 图 像 区 域 : 32: 和 4:5 sia a 
深度 值 逐 渐变 大 ， 只 是 在 桌子 边缘 处 的 变化 mort Ties 


较 快 , 在 遮挡 桌面 的 鸡蛋 表面 上 有 一 个 跳 变 。 
桌面 的 方向 或 者 说 桌面 的 法 线 方向 在 上 表面 
都 是 相同 的 ， 而 且 在 桌子 的 边缘 有 突变 。 蛋 
表面 的 方向 在 各 点 之 间 平 滑 变化 。 反 照 率 数 
值 说 明 ， 桌 面 ( 值 为 5) 是 比 蛋 面 ( 值 为 9) 
更 暗 的 材料 。 照 度 值 记 载 桌面 像素 值 的 变化 ， 
阴影 区 的 像素 值 为 1 ， 而 非 阴影 区 的 像素 值 
不 是 1。 假 设 光源 来 自 右上 方 ， 侧 对 光线 的 
鸡蛋 表面 的 像素 值 为 ?3， 显 得 比 那些 直接 面 图 12.4 与 图 12.2 对 应 , 含 部 分 鸡蛋 的 一 小 条 本 征 图 像 。 
向 光线 的 部 分 暗 一 些 ， 这 是 因为 在 单位 面积 每 个 像素 包含 四 个 值 ， 分 别 代 表 表面 深度 、 
上 接收 到 的 光 能 较 少 的 缘故 。 方向 、 照 度 和 反照 率 。 详 细 说 明 参见 正文 


习题 12.7 室外 场景 图 像 的 线段 标记 


参考 第 2 章 在 魁北克 城 拍摄 的 图 片 。 画 出 图 像 中 可 见 的 主要 轮廓 ， 并 用 标记 集 {IS M, 
Fy Se > >>} 标 记 这 些 轮廓 。 


12.2 线条 图 标记 

图 像 中 的 轮廓 结构 ， 与 3D 目 标 结构 有 很 大 关系 。 本 节 我 们 将 从 微观 上 来 说 明 这 一 点 ， 对 
目标 和 观察 条 件 要 进行 一 定 的 限制 。 假 设 所 有 的 3D 目 标 都 是 三 面 角 目标 ， 即 所 有 的 面 元 都 是 
平面 ， 所 有 的 角 都 由 三 个 面相 交 形 成 。 图 12-5 中 的 模块 就 是 这 样 的 目标 。 用 术语 面 、 折 痕 和 
角 描述 3D 结 构 ， 用 术语 区 域 、 边 和 连接 描述 3D 结 构 的 2D 图 像 。 假 设 3D 模 块 的 2D 图 像 是 包含 
区 域 、 边 连接 的 线条 图 。 进 一 步 地 ， 假 设 创建 2D 图 像 的 微小 视点 变化 ， 不 会 引起 这 幅 线条 图 
拓扑 结构 的 变化 ， 也 就 是 说 不 会 有 面 、 边 和 连接 的 出 现 或 消失 。 常 常 称 处 于 这 种 情况 的 目标 
是 处 于 常规 位 置 。 

尽管 对 模块 微观 世界 做 出 这 么 多 不 现实 的 限定 ,但 已 经 证 明 这 里 介绍 的 方法 在 很 多 实际 
环境 中 是 有 用 的 。 我 们 将 用 第 11 章 中 的 算法 进行 匹配 和 和 解释。 模块 领域 的 研究 内 容 具 有 一 定 
的 历史 价值 ， 并 且 支 持 对 新 方法 的 进一步 研究 。 
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通过 前 面 的 讨论 ， 我 们 已 经 知道 如 何 用 {+，- ，>} 标 记 图 像 的 边缘 ， 根 据 我 们 对 3D 结 构 
的 理解 ， 用 这 些 标 记 表 示 出 折 痕 或 丸 边 。 没 有 用 到 愤 边 ， 因 为 模块 世界 中 没有 权 边 。 大 约 30 
年 前 ， 有 人 发 现形 成 连接 的 线段 标记 组 合 是 强 约束 的 。 一 共 只 有 16 种 可 能 的 组 合 ， 如 图 12-6 
所 示 。 图 12-5 显 示 ， 对 应 相同 2D 线 条 图 的 两 种 不 同 的 3D 解 释 , 其 中 的 连接 类 型 发 生 了 变化 。 
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图 12-5 同一 线条 图 的 两 种 不 同 解释 。 右 图 中 省 略 的 刃 边 标 记 与 左 图 相同 
( 左 ) 模块 飘浮 在 空间 中 
( 右 ) 模块 粘 在 后 面 的 墙 上 
根据 连接 边 的 数目 和 边 间 的 角度 不 同 ， 共 有 四 类 连接 。 如 图 12-6 所 示 ， 自 上 到 下 ， 分 别 
称 为 连接、 行头 连接 、 又 连接 和 TT 连接。 图 12-5 是 具有 四 类 连接 的 例子 。 用 J 标志 的 连接 是 图 
12-6 中 顶部 最 左边 的 L 型 连接 ， 用 C 标 志 的 
连接 是 自 顶部 右 端 数 起 ,第 二 个 [连接 的 入 一 NA 六 NA NYa [名 


例子 ，G 是 图 12-6 第 二 行 最 右边 的 箭头 连 
接 ， 图 中 只 有 一 个 T 连 接 , 以 D 标 志 . 注 IN AN AK m 
意 ， 如 图 12-6 所 示 ，T 连 接 的 遮挡 边 ( 横 a a. ra za 
边 ) 对 被 遮挡 边 没 有 施加 约束 ， 四 种 可 能 

都 应 该 予以 保留 。 图 12-5 左 边 模块 的 四 个 we ee 了 


Be moe ies: PRL L 图 12-6 三 面 角 模 块 世界 (所 有 的 3D 角 由 三 平面 相交 形 
结构 ， 但 有 一 类 型 (m) 的 B26 三 93D 角 由 三 平面 相交 开 
结构 ， 但 右边 模块 中 有 另 一 类 型 (U) 的 成 ， 目 标 处 于 常规 观察 位 置 ) 的 图 像 ， 仅 有 16 


箭头 连接 (7)， 表 示 由 模块 和 墙壁 相交 构 种 可 能 的 拓扑 连接 。 连 接 类 型 自 上 向 下 依次 是 ， 
成 的 凹面。 L 连 接 、 箭 头 连接 、 又 连接 、T 连 接 

在 继续 讨论 之 前 ， 读 者 应 该 确信 全 部 
16 种 连接 实际 上 都 可 以 从 3D 模 块 的 投影 推出 。 更 困难 的 是 证 明 不 可 能 有 其 他 的 连接 。 这 个 难 
题 已 经 有 人 证 明 过 了 ， 读 者 只 需 在 做 习题 12.8 和 习题 12.9 时 证 实 找 不 到 其 他 的 连接 即 可 。 


e ae 


根据 你 的 观察 ， 对 图 12-1 的 左 侧 场景 进行 解释 ， 并 对 右 侧 的 线段 进行 标记 。 


e 


尝试 把 12-7 中 所 有 模块 的 所 有 边 标记 为 折 痕 或 丸 边 。 所 有 连接 都 应 来 自 图 12-6 中 列 出 的 类 
型 。(a) 哪些 线条 图 有 一 致 性 标记 ? (b) 哪些 线条 图 看 起 来 与 实际 目标 对 应 却 不 能 被 标记 ， 


w 
N 
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该 标记 为 什么 失败 ? (c) 哪些 线条 图 看 起 来 对 应 不 存在 的 目标 ”对 所 有 的 线条 图 都 能 进行 一 
致 性 标记 吗 ? 


图 12-7 在 有 限 的 模块 世界 中 ， 线 条 图 可 以 有 3D 解 释 ， 也 可 以 没有 3D 解 释 ? 哪些 有 解释 ? 
哪些 没有 ? 为 什么 ? 





画 出 实际 场景 的 线条 图 并 进行 标记 ， 这 个 场景 至 少 有 两 种 不 同 的 物体 ， 都 包含 全 部 四 种 
连接 类 型 。 建 立 你 自己 的 场景 ， 可 以 采用 本 节 的 几 个 图 形 结构 。 
第 11 章 中 介绍 的 两 种 算法 ， 可 用 来 自动 标记 线条 图 : 一 个 算法 是 顺序 回 湖 ， 另 一 个 算法 
是 并 行 松弛 标记 。 我 们 首先 把 要 解决 的 问题 形式 化 : 已 知 2D 线 条 图 ， 具 有 一 组 边 P (观察 到 
的 目标 ) ， 给 每 条 边 分 配 标 记忆 (模型 目标 ) 以 解释 边 的 3D 情 况 ， 使 连接 标记 的 类 型 属于 图 
12-6 列 出 的 16 种 类 型 。 符 号 P 和 Z 的 使 用 与 第 11 章 中 的 情况 一 致 ， 算 法 细节 请 参考 第 11 章 的 内 
容 。 为 了 强调 几 点 ， 后 面 给 出 粗略 的 算法 步骤 。 除 非 提供 其 他 附加 信息 ， 否 则 这 两 种 算法 通 
常会 产生 多 种 解释 。 流 行 的 做 法 是 ， 把 线条 图 中 所 有 凸 表面 上 的 边 标记 为 “> ”， 使 凸 表 面 位 
B79] FAM. 
算法 12.1 用 回溯 法 标记 模块 边缘 ， 并 对 场景 图 中 的 所 有 边 进行 一 致 性 解释 
输入 : 表示 边 集 E 和 连接 集 V 的 图 。 
输出 : 边 集 E 到 标记 集 L = {+，-，>，<} 的 映射 。 
任意 假定 一 个 边 排列 顺序 : E = {Pi, Py, =, P,}。 
* 前 进 阶段 ， 用 标记 集 L = {+，- ，>，<} 中 下 一 个 未 用 过 的 标记 对 边 尸 进行 标记 。 
“ 检验 新 标记 与 所 有 其 他 边 的 一 致 性 ， 其 他 边 通 过 V 中 的 某 个 连接 与 该 边 相 邻 。 
* 如果 新 分 配 的 标记 产生 的 连接 不 属于 16 种 类 型 ， 那 么 回 退 ; 否则 进入 下 一 个 前 进 
阶段 。 
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如 采 可 能 的 话 ， 应 该 首先 对 标记 约束 最 多 的 边 进行 赋值 。 甚 至 外 界 信 息 (如 立体 视觉 ) 
已 经 指明 这 条 边 与 3D 折 痕 对 应 。 根 据 角 和 相关 边 的 数目 确定 每 个 连接 的 类 型 ， 需 要 做 一 些 预 
处 理工 作 。 其 他 改进 的 方法 中 ， 把 16 种 类 型 的 解释 分 配给 连接 标记 ， 去 掉 那 些 存在 矛盾 的 连 
接 标 记 ， 即 该 连接 与 邻近 连接 对 公共 边 的 解释 互相 矛盾 。 图 12-8 是 关于 四 面 塔 状 物 线条 图 的 
解释 树 。 搜 索 空 间 相 当 小 ， 说 明了 三 面 角 模 块 世界 的 强 约束 机 制 。 


Z/N 


$ 
D, NM) m, N- p, W) 











对 边 DB 的 
矛盾 解释 
(A, L) 
不 属于 16 种 
类 型 





图 12-8 右上 角 塔 状 物 线条 图 的 解释 树 。 在 树 的 每 一 层 ， 用 图 12-6 中 的 16 种 连接 标记 ， 
对 四 个 连接 进行 标记 。 在 树 的 第 一 层 ， 给 连接 B 分 配 解释 标记 ， 接 下 来 给 连 
接 D、A 和 C 分 配 解释 标记 。 右 下 角 ， 三 条 完全 通路 产生 三 种 解释 


完成 图 12-8 的 解释 树 中 省 略 的 右 侧 部 分 ， 提 供 所 有 的 边 和 节点 。 








构造 5 层 解释 树 ， 给 图 12-8 所 示 塔 状 物 所 有 的 边 分 配 一 致 性 标记 。 首 先 ， 用 第 11 章 中 的 一 
致 性 标记 形式 进行 问题 表示 ， 用 5 个 观察 到 的 边 和 4 个 可 能 的 边 标 记 ， 来 定义 P、L、 Rp. Ryo 
然后 画 出 解释 树 。 树 中 是 否 有 三 条 完全 通路 与 图 12-8 中 的 三 条 完全 通路 对 应 ? 
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松弛 法 线段 标记 
第 11 章 讲 过 ， 可 用 离散 松弛 算法 来 约束 对 线条 图 部 件 的 解释 。 在 此 为 线条 图 的 各 边 分 本 
标记 ， 当 然 也 可 用 类 似 的 程序 为 连接 分 配 标记 。 
算法 12.2 ”用 离散 松弛 法 标记 模块 边缘 ， 并 对 场景 图 各 边 进行 二 致 性 解释 
输入 ， 表 示 边 集 E 和 连接 集 V 的 图 。 
给 出， 边 集 E 到 标记 集 L={+，- ，>，<} 子 集 的 映射 。 
* 初始 化 ， 给 每 条 边 P 分 配 标记 {+，-，>，<}。 
* 在 每 一 步 ， 通 过 对 所 有 边 做 如 下 处 理 ， 过 滤 出 可 能 的 标记 : 
给 与 P. 相 连 的 边 赋 以 可 能 的 标记 ， 如 果 标记 不 能 构成 合法 的 连接 ， 那 么 从 PP 
的 标记 集中 去 掉 标记 
* 当 标 记 集 合 大 小 不 再 减 小 时 ， 就 停止 迄 代 。 


算法 12.2 是 对 大 量 不 同类 似 算法 的 简单 概括 。 因为 算法 简单 并 可 以 以 任何 顺序 执行 ， 其 至 
每 步 都 可 以 并 行 执行 ， 范 例 中 建立 了 一 个 有 趣 的 模型 ， 模拟 沿 着 人 类 视网膜 神经 网 络 的 信息 
流动 方向 所 发 生 的 现象 。 有 人 研究 过 图 像 亮度 约束 条 件 ， 以 及 多 分 辩 率 工作 方式 。 模 块 世界 
的 研究 工作 趣味 浓厚 ， 后 来 的 工作 也 卓有成效 。 但 这 只 是 玩具 形式 ， 对 多 数 实际 场景 来 说 没 
. 有 用 处 ， 因 为 (a) 多 数 3D 目 标 并 不 满足 我 们 所 做 的 假设 ，(b) 实际 2D 图 像 表示 与 要 求 的 线 
条 图 相去 甚 远 。 已 经 提出 了 一 些 改进 方法 ， 例如 为 了 能 够 表示 曲面 目标 ， 对 标记 和 连接 类 型 
WET SP FE. 并 对 线条 图 误差 进行 了 调整 ， 这 些 将 在 参考 文献 中 提 及 。 
| 内 克 (Necker) 现象 
习题 12.12 对 处 于 常规 位 置 的 塔 状 物 图 像 边 缘 进 行 标 记 ， 本 题 在 此 基础 上 稍 做 改变 。 图 12- 
9 是 立方 体 的 线 框图 ， 没有 任何 遮挡 ， 图 像 中 12 条 折 痕 边 都 是 可 见 的 。(a) 凝视 最 左边 的 一 幅 ， 
通过 你 的 观察 能 对 这 幅 线条 图 进行 3D 解 释 吗 ? 经 过 几 分 钟 的 凝视 后 , 这 个 解释 有 变化 吗 ? (b) 
标记 中 间 的 图 像 ， 使 连接 G 成 为 前 角 。 删 去 连接 H 及 附带 的 三 条 边 ， 于 是 表示 出 一 个 不 透明 的 
立方 体 。(c) 重复 (b) WTE, SHAHH, 删除 连接 到 G 的 各 边 。 注 意 在 我 们 定义 的 模块 
380 世界 中 ，3D 线 框 目标 不 是 合法 的 目标 。 但 是 我 们 可 以 使 用 相同 的 推理 方式 ， 去 解释 立方 体 任 
382| 人 和 何 角 的 邻 域 ， 这 些 角 确 实 属于 16 种 连接 的 类 型 。 


C D C D C 















人 F A F A F 


图 12-9 参见 习题 12.13。 内 克 立 方 体 有 多 种 解释 。 盯 着 看 其 中 的 一 幅 图 ， 一 般 都 有 不 同 的 
解释 方式 。 中 间 的 两 个 又 型 连接 ， 可 以 解释 成 前 角 ， 也 可 以 解释 成 后 角 





把 第 11 章 的 解释 树 程序 应 用 到 图 12-7 所 示 的 线条 图 。 写 出 完全 通路 中 的 正确 标记 


2D AR F 43D tz É 283 


12.3 2D 图 像 中 的 3D 线 索 

图 像 是 实际 世界 的 2D 投 影 。 但 是 喜欢 艺术 或 电影 的 人 都 知道 ，2D 图 像 能 够 唤起 丰富 的 3D 
情感 。2D 图 像 中 存在 很 多 线索 ， 可 用 于 3D 解 释 。 

在 图 12-10 中 可 以 看 到 一 些 深 度 线索 。 两 个 熟睡 的 人 挡住 了 长 椅 ， 长 椅 挡 住 了 灯 柱 ， 灯 柱 
挡住 了 复杂 的 栏杆 ， 栏 杆 挡 住 了 树 ， 树 挡住 了 有 尖顶 的 建筑 物 ， 建 筑 物 又 挡住 了 天 空 。 可 以 
从 右 侧 灯 柱 的 影子 和 较 明 亮 的 灯 柱 右 表 面 看 出 ， 太 阳 从 图 的 右边 远 处 照 过 来 。 同 样 ， 右 侧 看 
不 见 的 栏杆 在 地 上 投下 复杂 的 影子 ， 在 瓦 片 铺 就 的 院子 中 产生 虚假 的 外 观 。 地 上 的 纹理 表明 
地 是 平面 ， 纹 理 逐 渐 缩 短 表明 地 面 逐 渐 远 离 观 察 者 。 通 过 左 侧 建筑 物 墙壁 的 边沿 走向 ， 人 们 
可 以 很 明显 地 看 出 墙壁 的 方向 。 栏 杆 图 像 从 右 向 左 的 走势 信息 强烈 暗示 我 们 : 在 3D 环 境 中 ， 
栏杆 深度 在 向 后 延伸 。 类 似 的 ， 长 椅 从 左 向 右 的 走势 也 说 明 其 深度 向 后 延伸 。 灯 柱 和 人 的 图 
像 比 尖顶 大 很 多 ,说 明 尖 顶 离 得 很 远 。 





图 12-10 在 大 湖区 圣 罗 伦 斯 河 的 悬崖 上 拍摄 的 魁北克 城 

( 左 ) 图 像 中 有 很 多 深度 线索 

(AV) Roberts 边 缘 检测 ， 冰 值 化 后 保留 10% 的 像素 

定义 96 ” 当 一 个 目标 遮挡 另 一 个 目标 时 就 出 现 穿插 (interposition) 现象 ， 这 时 遮挡 
目标 到 观察 者 的 距离 比 被 遮挡 目标 的 距离 要 近 。 






把 第 11 章 中 的 松弛 标记 程序 应 用 到 图 12-7 的 线条 图 中 。 如 果 有 任何 一 条 边 的 标记 集 变 为 
NULL， 那 么 就 没有 一 致 性 解释 。 如 果 有 任何 一 条 边 在 最 终 标记 集中 的 标记 多 于 一 个 ， 那 么 该 
算法 存在 歧义 性 问题 。 在 这 种 情况 下 ， 可 以 对 线条 图 使 用 多 个 标记 ， 然 后 验证 哪些 是 可 实际 
实现 的 标记 。 





找 出 图 12-3 盒 子 中 线段 的 所 有 T 连 接 。 是 否 每 个 连接 都 真 的 表示 一 个 表面 被 另 一 个 表面 
遮挡 ? 
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如 上 面 所 讨论 的 ， 在 对 图 12-10 进 行 解释 时 ， 目 标 穿插 现象 给 出 了 非常 明显 的 线 素 。 毫 无 
疑问 ， 长 椅 比 被 它 遮挡 的 灯 柱 更 近 ， 而 灯 柱 比 栏杆 更 近 。 个 别 目标 的 识别 可 能 有 助 于 利用 这 
些 线索 ， 但 这 不 是 必需 的 。 图 像 轮廓 中 形成 的 T 连 





接 给 出 了 很 明显 的 局 部 线索 。 参 见 图 12-11。 注 意 T ig 

在 图 12-10 右 侧 的 边缘 图 像 中 ， 建 筑 物 边缘 是 它 和 m ine 

长 椅 上 沿 形成 的 T 连 接 的 竖 边 ， 栏 杆 则 是 栏杆 和 灯 

柱 右 侧 边 形成 的 T 连 接 的 竖 边 。 一 对 相对 的 T 连 接 ne certain 
SER, BAERT MEAD AE io tt Tink, ER 
另 一 个 目标 的 后 面 穿 过 。 这 个 边缘 图 像 是 很 复杂 迹 挡 。T 连 接 的 横 边 对 应 这 挡 目标 ， 
的 ， 因 为 它 表示 室外 场景 。 对 于 较 简 单 的 情况 ， 其 竖 边 对 应 被 遮挡 的 目标 。 两 个 相对 
请 参考 后 面 的 习题 。 可 以 利用 已 识别 的 目标 或 表 的 T 连 接 与 一 个 T 连 接 相 比 ， 前 者 提供 
面 的 穿插 现象 ， 计 算 目 标 间 的 相对 深度 。 了 更 明显 的 遮挡 证 据 


定义 97 “透视 缩放 (perspective scaling) 是 指 ， 目标 的 距离 与 它 在 图 像 中 的 大 小 成 
反比 。 缩 放 这 个 术语 专门 用 来 比较 与 图 像 面 平行 的 目标 大 小 。 


识别 图 12-10 中 的 尖顶 时 ， 我 们 知道 它们 离 得 很 远 ， 因 为 其 图 像 尺寸 很 小 。 当 从 右 向 左 看 
时 ， 栏 杆 的 竖 直 部 件 变 小 。 同 样 ， 当 从 很 高 的 建筑 物 上 观看 下 面 的 街道 时 ， 距离 地 面 越 高 ， 
人 和 汽车 就 显得 越 小 。 目 标 在 图 像 中 的 大 小 可 用 来 计算 该 目标 的 3D 深 度 。 


定义 98 在 与 目标 轴 成 锐角 的 方向 观察 目标 时 ， 图 像 中 的 目标 会 出 现 透视 缩短 
(foreshortening) 现象 。 这 提供 了 另 一 个 明显 的 线索 ， 反 映 了 2D 视 图 与 3D 目 标 之 间 


观察 图 12-10 中 的 长 椅 及 上 面 的 人 ， 它 们 形成 的 图 像 长 度 ， 与 长 椅 近 距离 水 平 横 放 所 形成 
的 图 像 长 度 相 比 ， 前 者 要 显得 短 一 些 。 同 样 ， 当 场景 中 栏杆 逐渐 远离 时 ， 栏 杆 的 坚 直 部 件 在 
图 像 中 逐渐 靠近 。 如 果 视 线 与 栏杆 面 垂 直 ， 这 个 缩短 现象 是 不 会 出 现 的 。 纹 理 梯度 也 是 相关 
的 3D 线 索 。 纹 理 成 分 容易 受到 透视 缩放 和 透视 缩短 的 影响 ， 发 生 的 纹理 变化 给 观察 者 提供 了 
纹理 表面 的 距离 和 方向 信息 。 当 仰望 砖 结构 建筑 物 ， 沿 着 平 铺 的 地 板 或 铁轨 方向 观看 ， 从 玉 
米 地 或 体育 场 的 人 群 上 面 看 过 去 ， 这 个 效果 
是 很 明显 的 。 图 12-12 可 以 说 明 这 一 点 。 当 我 
们 的 朋友 身 穿 有 着 规则 纹理 图 案 的 衣服 时 ， 
纹理 梯度 还 告诉 我 们 关于 他 们 体形 的 信息 。 
图 12-13 显 示 出 现 纹理 梯度 的 简单 情况 。 随 着 
3D 上 距离 的 增加 ， 纹 理 或 者 虚线 在 图 中 向 着 图 
像 中 心 逐 渐 靠 近 。 图 12-14 显 示 的 是 ， 用 规则 
的 栅 格 光 纹 照射 场景 中 的 目标 ， 就 在 目标 表 LS Ce N 
面 上 形成 了 纹理 。 该 结构 光 不 仅 使 我 们 得 到 eS pee Stent x 
is cee, orien ee ee 
J 法 线 方向 甚至 深度 ， 下 一 章 我 们 就 会 看 到 玉米 的 行 ) 和 纹理 梯度 。 图 像 中 自 下 到 上 
这 一 点 。 可 以 用 图 像 中 纹理 的 变化 计算 由 该 纹理 变 得 更 密 ， 因为 每 平方 厘米 的 图 像 包 
纹理 产生 的 3D 表 面 的 方向 。 含 了 更 多 的 玉米 叶 (John Gerrish 提 供 ) 
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_ 一 二 了 人 缩放 速度 : A 的 图 像 


变化 要 比 B 的 快 


- 一 





线 远离 观察 者 





运动 视差 . 随 着 观察 者 从 fi 运动 到 f, 目 ~~ St tL 
标 A 和 B 彼 此 间 显得 逐 源 远离 ， 较 近 的 
目标 A 比较 远 的 目标 B 移 动 得 更 快 
图 12-13 缩放 、 透 视 缩短 、 纹 理 梯 度 和 运动 视差 的 效果 示意 图 。 图 中 ， 
靠 前 的 图 像 面 用 一 条 垂 线段 表示 ， 目 标 位 于 其 右面 


定义 99 纹理 梯度 (texture 
gradient) 是 图 像 纹 理 (测量 的 
或 感知 的 ) 沿 图 像 中 某 个 方向 的 
变化 ， 它 常常 能 够 反映 3D 目 标的 
距离 或 表面 方向 的 变化 ， 其 中 纹 





理 是 指 所 研究 目标 表面 上 具有 的 d yao 
纹理 。 图 12-14 结构 光照 射 目标 形成 的 纹理 ， 揭 示 了 目标 的 3D 表 
3D 规 则 纹理 表面 在 图 像 中 会 产生 面 形状 (图像 由 Gongzhu Hu 提供 ) 


纹理 梯度 ， 反 过 来 则 不 一 定 正 确 。 当 (CE) 光 棚 投 射 到 轩 于 平地 的 光滑 雕塑 上 
然 ， 艺 术 家 通过 在 2D 纸 上 创造 纹理 梯 (A) 去 掉 平面 背景 后 的 目标 上 的 条 纹 ， 这 是 什么 物体 ? 
度 来 产生 3D 的 表面 效果 。 
定义 100 ”运动 中 的 观察 者 能 够 通过 运动 视差 (motion parallax) 得 到 目标 的 深度 信 
息 ， 在 这 种 情况 下 ， 即 使 是 静止 目标 彼此 间 也 会 出 现 相 对 运动 的 现象 : 近 处 目标 的 
图 像 要 比 远 处 目标 的 图 像 运动 得 更 快 一 些 。 
尽管 运动 视差 是 由 观察 者 运动 引起 的 ， 但 如 果 观 察 者 静止 而 目标 运动 的 话 ， 也 会 出 现 类 
似 的 效果 。 图 12-13 把 刚 讨论 过 的 几 种 效果 通过 透视 投影 表现 出 来 。 当 我 们 沿街 道行 走时 ( 假 
设 闭 着 一 只 眼睛 )， 身 边 经 过 的 目标 例如 垃圾 箱 或 大 门 ， 它 们 的 图 像 在 视网膜 上 的 运动 远 比 前 
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方 同类 目标 的 运动 速度 快 。 开 车 时 ， 迎 面 而 来 的 车 辆 在 一 定 距离 外 图 像 是 稳定 的 ， 最终 它 们 
会 从 我 们 的 车 窗外 飞驰 而 去 。 同 样 ， 经 过 我 们 身边 的 汽车 图 像 ， 其 变化 速度 要 比 远 处 汽车 的 
图 像 变 化 快 得 多 。 由 于 透视 投影 的 数学 原理 相同 ， 运 动 视差 与 透视 缩放 和 透视 缩短 有 关 。 

在 一 幅 2D 图 像 中 ,除了 我 们 上 面 讨论 的 现象 外 ， 还 有 更 多 其 他 的 3D 线 索 。 比 如 与 较 近 的 
目标 相 比 ， 远 处 的 目标 会 带 更 多 的 青色 。 或 者 由 于 目标 和 观察 者 之 间 空 气 的 散射 作用 ， 图 像 
可 能 显得 不 够 明快 。 通 过 变化 的 焦距 可 以 得 到 深度 信息 ， 这 一 点 将 在 第 13 章 中 讨论 。 另 外 我 
们 还 没有 论 及 现实 世界 中 的 其 他 约束 条 件 ， 例 如 还 没有 假设 地 平面 或 者 确定 特殊 垂直 方向 的 
引力 世界 ， 而 人 类 视觉 系统 是 离 不 开 这 两 个 条 件 的 。 





闭 上 一 只 眼睛 观察 一 支 铅笔 。 保 持 它 与 两 眼 间 的 连 线 平行 ， 然 后 把 它 从 眼前 移动 到 一 避 
远 处 。 铅 笔 图 像 的 尺寸 发 生变 化 ， 是 缩放 现象 还 是 缩短 现象 ”还 是 二 者 兼 而 有 之 ? MERE 
中 心 ， 保 持 眼 睛 和 铬 笔 中 心间 的 距离 固定 ， 绕 中 心 旋转 铅笔 ， 观 察 铅笔 图 像 的 变化 。 图 像 尺 
才 的 变化 是 缩放 现象 还 是 缩短 现象 ? 还 是 二 者 兼 而 有 之 ?把 与 图 像 尺寸 有 关 的 近似 三 角 公 式 
表示 为 旋转 角 的 函数 。 








让 一 根 手指 垂直 贴近 你 的 鼻子 ， 轮 流 挣 开 双 眼 ， 两 秒 钟 一 换 。 会 观察 到 手指 有 明显 的 运 
动 (实际 是 不 动 的 )。 把 手指 往 后 移动 ， 重 复 前 面 的 过 程 。 把 手指 移 到 一 臂 远 处 ， 再 重复 前 面 
的 过 程 。( 把 指 尖 对 准 门 把 手 或 其 他 更 远 的 目标 效果 会 更 好 。 ) 描述 手指 位 移 量 与 到 鼻子 的 距 
离 之 间 的 关系 。 
12.4 其 他 3D 现 象 

第 10 章 讨论 了 一 些 理 论 ， 通 过 察 集 图 像 特征 以 得 到 较 大 的 3D 结 构 ， 如 格式 塔 (Gestalt) 
原理 。 这 些 原理 在 从 图 像 得 到 3D 解 释 方 面 是 卓有成效 的 。 当 然 有 时 会 出 现 错误 ， 也 就 是 对 一 
些 情况 做 出 了 不 正确 的 解释 。 下 面 简要 讨论 从 2D 图 像 特征 到 3D 结 构 解 释 的 其 他 重要 现象 。 
12.4.1 从 X 恢 复 形 状 

20 世 纪 80 年 代 ， 根 据 不 同 图 像 特征 计算 表面 形状 的 研究 工作 突飞猛进 。 研 究 中 常常 使 用 
单一 图 像 特征 ， 而 不 是 结合 使 用 不 同 的 图 像 特性 。 有 的 数学 模型 将 在 第 13 章 进行 讨论 ， 而 下 
面 详细 介绍 所 用 的 3D 现 象 。 在 此 我 们 仅 介绍 用 作 3D 形 状 线索 的 特征 X。 
1. 从 明暗 恢复 形状 


元 方向 及 面 元 的 反射 系数 。 需 要 这 么 多 的 参数 ， 我 们 只 能 期 望 在 高 度 受 控 的 环境 中 ， 能 够 根据 
明暗 信息 很 好 地 恢复 出 形状 。 图 12-15 是 具有 均匀 网 格 的 圆柱 体 图 像 ， 照 明 来 自 单方 向 。 图 
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12-16 显 示 两 光 请 目标 的 图 像 ， 带 有 很 好 的 明暗 信息 ， 使 我 们 能 够 看 出 它们 的 形状 。 





图 12-15 


( 左 ) 被 照射 圆柱 体 的 图 像 ， 把 网 格 纸 缠 到 铁 饶 外 形成 圆柱 体 的 表面 
(Ai) 亮度 国 数 的 3D 图 ， 这 时 的 视点 稍 有 变化 。 注 意 观 察 用 亮度 值 表示 出 的 圆柱 体形 状 








egg-vaseR100 一 








图 12-16 光滑 目标 的 亮度 图 像 ， 目 标 是 花瓶 和 鸡蛋 ， 右 图 是 穿 过 一 行 高 亮 像 素 行 的 亮度 曲线 。 
注意 观察 亮度 如 何 与 目标 形状 密切 相关 (Deborah Trytten 提 供 ) 

2. 从 纹理 恢复 形状 

假设 纹理 存在 于 单个 3D 表 面 ， 并 且 纹 理 模 式 有 一 定 规律 ， 就 可 以 用 2D 纹 理 梯 度 的 概念 计 
算 3D 表 面 的 方向 。 前 面 已 经 讲 过 纹理 梯度 的 概念 。 图 12-18 显 示 以 某 个 角度 观察 3D 表 面 上 的 
规则 纹理 ， 从 而 在 2D 图 像 中 形成 了 纹理 梯度 。 要 特别 定义 两 个 角度 ， 建 立 表面 方向 与 观 窦 方 
向 之 间 的 关系 。 

定义 101 ”表面 法 线 在 图 像 中 的 投影 方向 角 称 为 表面 的 倾斜 角 (tilt), A 5 

线 的 夹 角 称 为 表面 的 俯仰 角 (slant)。 参 见 图 12-18。 

假设 有 人 直立 地 站 着 ， 眼 睛 看 着 前 面 平坦 的 麦田 。 如 果 头 是 竖 直 的 ， 那 么 田地 的 倾斜 角 
是 90"。 如 果 看 得 足够 远 ， 那 么 俯仰 角 接近 90*; 如 果 只 是 看 到 脚下 ， 那 么 俯仰 角 近 似 0*。 如 果 
头 疝 左倾 45"， 那 么 田地 的 倾斜 角 变 为 45"， 如 果 头 向 右倾 45"， 则 田地 倾斜 角 为 135"。 图 12-19 B39 
主要 包含 两 个 平面 ， 即 地 面 上 的 人 行道 和 带 台 阶 的 墙 。 人 行道 倾斜 角 90"， 俯 仰角 大 约 75*。 
(道路 向 上 拱 起 15"。) 带 台阶 的 墙 倾斜 角 约 170"， 俯 仰角 约 70"。 倾 斜 角 和 俯仰 角 的 概念 可 以 用 
到 任意 表面 ， 而 并 不 只 是 那些 接近 地 面 的 表面 ， 例 如 建筑 物 的 内 墙 或 外 墙 ， 盒 子 或 卡车 的 正 
面 等 。 事 实 上 这 些 概念 也 可 以 用 于 曲面 元 ， 但 由 于 表面 法 线 方向 的 变化 ， 使 得 计算 图 像 中 的 
纹理 梯度 更 加 困难 。 


w 
oo 
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图 12-17 从 2D 图 像 特 征 推出 其 他 3D 线 索 图 12-18 根据 表面 法 线 N 相 对 视觉 坐标 系 的 方向 ， 


a) 相似 特征 聚集 会 形成 虚拟 直线 和 虚拟 曲线 确定 表面 的 倾斜 角 和 俯仰 角 。 倾 斜 角 十 N 
b) 虚拟 边界 能 够 误导 人 类 ， 使 我 们 感到 中 间 穿 插 了 投影 到 图 像 中 的 方向 (T)。 俯 仰角 9 是 N 与 
与 背景 亮度 不 同 的 目标 视线 的 夹 角 
c) 2D 中 的 对 齐 常常 意味 着 3D 中 的 对 齐 ， 但 有 时 不 
是 这 样 


d) 2D 图 像 中 的 曲线 包含 3D 表 面 的 形状 信息 





图 12-19 
( 左 ) 包含 很 多 纹理 的 图 像 
(Ai) 5x 5 Prewitt 边 缘 检 测 结果 。 人 行道 的 倾斜 角 是 90"， 信 仰角 大 约 75*。 砖 墙 的 倾斜 角 大 约 170"， 俯 仰角 大 约 70” 





(a) 对 于 图 12-5 中 的 目标 ， 给 出 四 个 表面 的 倾斜 角 和 俯仰 角 。(b) 对 于 图 12-1 中 的 目标 ， 
做 相同 的 工作 。 


3. 从 边界 恢复 形状 
人 类 可 以 通过 图 像 中 2D 边 界 的 形状 推断 3D 目 标的 形状 。 对 于 图 像 中 的 椭圆 ， 直接 的 3D 解 
释 是 圆 盘 或 球 。 如 果 圆 面 上 明暗 信息 和 纹理 都 是 均匀 的 ， 那 么 就 认为 是 圆 盘 ; 如 果 明 暗 或 纹 
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理 向 边界 逐渐 变化 ， 那 么 就 认为 是 球 。 卡 通 画 和 其 他 线条 图 经 常 不 加 明暗 效果 和 纹理 ， 但 人 
类 仍然 可 以 从 中 推断 出 3D 形 状 。 

被 光滑 曲线 围绕 的 区 域 ， 其 内 部 点 对 应 的 表面 法 线 方向 可 以 算出 。 考 虑 简单 的 圆周 情况 。 
光滑 的 假设 意味 着 在 3D 中 ， 目 标 愤 边 上 的 表面 法 线 垂直 于 视线 ， 同 时 又 垂直 于 图 像 中 的 圆周 。 
这 就 允许 我 们 给 图 中 的 边界 点 分 配 唯 一 的 法 线 方向 。 法 线 方向 与 边界 点 的 走向 相反 ， 这 些 边 
界 点 是 圆周 直径 的 端点 。 然 后 就 可 以 沿 着 整个 直径 插入 平滑 变化 的 表面 法 线 方向 ， 确 保 中 间 
像素 的 法 线 方向 指向 观察 者 。 要 做 到 这 一 点 还 需要 一 个 附加 条 件 ， 因 为 椭 球 表面 与 球 表面 会 
有 所 不 同 ， 半 球 壳 的 内 表面 与 外 表面 也 不 同 。 附 加 条 件 能 够 限制 只 产生 一 个 表面 ， 这 个 表面 
也 可 能 是 错误 的 。 可 以 通过 明暗 信息 约束 表面 方向 的 分 布 。 鸡 蛋 和 球体 的 明暗 效果 是 不 同 的 ， 
但 球 的 内 外 侧 也 许 没有 这 种 明暗 差别 。 


找 一 幅 人 或 动物 造型 的 卡通 画 。(a) 图 上 有 表现 3D 目 标 形 状 的 明暗 效果 、 阴 影 或 纹理 
吗 ? 如 果 没 有 ,假设 有 光源 位 于 前 右上 方 ， 请 添加 一 些 效果 。(b) 在 纸 上 画 出 目标 的 边界 。 
把 边界 内 20 个 左右 的 点 添加 表面 法 线 方向 ， 以 表示 出 目标 形状 ， 就 像 本 征 图 像 中 表示 的 一 样 。 
12.4.2 消 隐 点 

透视 投影 使 平行 线 发 生 有 趣 的 变形 。 几 个 世界 以 来 ， 艺 术 家 和 画家 一 直 在 利用 这 个 知识 
进行 创作 。 图 12-20 显 示 两 个 广为人知 的 现象 。 第 一 个 现象 ， 向 光 轴 倾斜 的 3D 线 在 2D 图 像 中 消 
失 于 一 个 点 ， 称 这 个 点 为 消 隐 点 (vanishing 
point)。 第 二 个 现象 ， 如 图 所 示 的 一 组 平行 
线 有 相同 的 消 隐 点 。 利 用 透视 投影 的 代数 模 
型 ， 可 以 很 容易 对 这 个 现象 进行 解释 。 平 行 
于 同一 平面 的 不 同方 向 的 平行 线 ， 其 消 隐 点 
构成 消 隐 线 (vanishing line)。 特 别 地 ， 地 面 
上 不 同方 向 的 平行 线 的 消 隐 点 构成 了 地 平 线 
(horizon line)。 图 12-20 中 ， 地 面 是 由 和 矩形 
头 铺 成 的 表面 ， 点 Yi 和 Ya 构成 地 平 线 。 注 意图 12-20 透视 投影 下 ， 与 光 轴 倾斜 的 3D 线 ， 在 2D 图 





三 条 平行 线 (公路 ) 消失 在 点 V,， 这 个 点 与 像 中 消失 在 某 个 点 。 平 行 线 在 图 像 中 相交 于 
矩形 纹理 构成 的 消 隐 点 处 于 同一 地 平 线 上 。 相同 的 消 隐 点 


利用 这 些 透 视 特性 ， 可 以 根据 未 标定 拖 像 机 拍摄 的 图 像 ， 推 断 出 摄像 机 模型 。 最 近 ， 根 据 这 
些 原理 已 经 开发 出 一 些 系 统 ， 它 们 能 够 利用 几 个 视点 的 场景 视频 建立 场景 的 3D 模 型 。 
12.4.3 根据 焦距 变化 求 深度 

单个 摄像 机 如 入 类 的 眼睛 一 样 ， 可 用 来 计算 与 像素 点 对 应 的 表面 点 的 深度 。 睫 状 肌 改 变 
形状 起 到 调 焦作 用 ， 使 眼睛 能 看 清 目标 。 传 感 器 通过 调 焦 使 目标 或 目标 边缘 进入 注视 范围 内 ， 
以 此 得 到 目标 的 深度 信息 。 人 类 已 经 根据 这 个 原理 制造 出 摄像 设备 ， 其 中 包含 自动 聚焦 控制 
功能 。 为 了 叙述 简单 ， 可 以 设想 摄像 机 的 焦距 在 某 个 范围 内 平稳 变化 。 对 应 每 个 / 值 ， 对 得 到 
的 图 像 进 行 边缘 检测 。 对 于 每 个 像素 ,保存 产生 清晰 边缘 的 / 值 ， 并 利用 / 值 确定 该 像素 对 应 的 
3D 表 面 点 的 深度 。 很 多 图 像 点 不 是 由 3D 中 的 反差 邻 域 产生 的 ， 因 此 不 会 产生 可 用 的 清晰 边缘 
值 。 短 焦距 镜头 ， 如 f<8mm， 具 有 很 好 的 景深 (depth of field)， 这 意味 着 目标 与 摄像 机 的 距 
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离 可 以 有 较 大 的 变化 范围 ， 在 这 个 范围 内 都 能 够 产生 较 好 的 聚焦 效果 。 短 焦距 下 不 利于 确定 
到 焦点 的 准确 距离 ， 而 此 时 采用 长 焦距 比较 有 利 。 在 12.7 节 我 们 会 看 到 ， 如 何 根据 物理 学 中 
的 透镜 方程 得 出 这 个 结论 。 

利用 图 像 亮 度 和 阴影 前 面 已 经 提 到 过 ， 结 构 光 可 以 在 均匀 表面 上 产生 特征 。 同 样 ， 阴 影 
也 可 以 起 到 类 似 的 作用 。 人 类 和 机 器 都 能 够 根据 表面 上 的 图 案 来 推断 表面 的 存在 和 形状 。 考 
虐 图 12-17d 中 的 曲线 。 根 据 曲线 的 形状 ， 可 以 认为 3D 表 面 呈 波浪 形 。 在 被 雪 覆 盖 的 地 形 中 ， 
树 影 对 滑雪 者 是 有 帮助 的 。 对 他 们 来 说 ， 判 断 地 势 时 即使 有 六 英寸 的 小 错误 ， 也 会 很 容易 失 
去 平衡 。 类 似 的 情形 显示 在 图 12-14 中 ， 图 中 的 投影 光 带 图 案 指 明了 土豆 的 椭圆 形状 。 
12.4.4 运动 现象 

我 们 已 经 讨论 过 运动 视差 。 当 运动 着 的 视觉 传感器 跟踪 拍摄 3D 目 标 时 ， 随 着 传感器 接近 
目标 ， 目 标的 2D 图 像 点 显得 膨胀 了 。( 如果 目 标 逃 离 速度 比 跟踪 速度 快 ， 则 目标 的 图 像 点 将 是 
收缩 而 不 是 膨胀 。) 称 跟踪 的 中 心 点 为 膨胀 中 心 (focus of expansion)。 如 果 目 标 朝向 传感器 
运动 ， 也 会 出 现 类 似 现象 。 这 种 目标 图 像 的 快速 膨胀 现象 称 为 渐 显 (looming) 现象 。 第 9 章 
的 光 流 理论 可 以 解释 这 种 现象 。 图 像 流 与 目标 或 追踪 者 的 距离 和 速度 之 间 的 关系 已 经 有 了 定 
量 的 描述 方式 。 
12.4.5 边界 和 虚拟 线 

如 图 12-17 所 示 ， 边 界 和 曲线 可 能 是 虚拟 的 (virtual)。 参 见 左 上 角 的 图 ， 围 栏 柱 的 两 端 、 
树 尖 及 公路 路 标 在 图 像 中 形成 虚拟 曲线 。 右 上 角 显 示 两 个 著名 的 心理 学 测试 例 图 ， 上 面 的 例 
图 ， 人 们 会 感到 比较 亮 的 三 角 面 挡 在 三 个 深 色 圆 之 上 ; 下 面 的 例 图 ， 则 会 让 人 感到 比较 亮 的 
圆 面 挡住 了 从 中 心 发 出 的 光线 。 如 果 人 类 视觉 系统 就 是 认为 存在 穿插 的 目标 ， 它 一 定 否认 该 
目标 刚好 与 被 遮挡 的 背景 有 相同 的 反射 系数 。 对 人 类 视觉 系统 来 说 ， 非 常 容易 出 现 这 种 错觉 ， 
即使 去 掉 图 12-17 中 的 虚线 仍 是 如 此 。 机 器 视觉 系统 则 不 会 出 现 这 样 的 错误 ， 即 不 会 感到 图 中 
的 中 心 区 域 要 比 背景 更 亮 ， 这 是 因为 它 能 够 得 到 具体 的 像素 亮度 值 。 


定义 102 图 像 中 类 似 的 点 或 目标 ， 沿 着 某 条 直线 或 曲线 进行 聚集 ， 在 图 像 中 就 会 出 
现 一 条 虚拟 直线 (virtual line) 或 虚拟 曲线 (virtual curve), 





仔细 制作 两 张 白色 卡片 ， 其 中 包含 图 12-17b 中 的 两 个 虚幻 图 。 把 这 两 张 卡片 拿 给 5 个 人 观 
看 ， 看 看 他 们 是 否认 为 中 心 区 域 更 明亮 一 些 。 你 不 能 直接 这 样 问 他 们 ， 而 应 该 问 一 般 性 的 问 
题 , 让 他 们 描述 看 到 了 什么 。 例如 间 他 们 “你 感觉 图 中 有 什么 ?”“ 请 说 出 它们 的 形状 和 颜色 ”。 
然后 对 结果 进行 总 结 。- 

12.4.6 非 偶然 对 齐 

空间 中 的 目标 之 间或 目标 与 观察 者 之 间 的 对 齐 现象 存在 偶然 性 ， 但 人 类 视觉 系统 不 愿 承 
认 这 一 点 。 相 反 ， 我 们 常常 认为 2D 图 像 中 的 对 齐 是 由 于 3D 对 齐 引 起 的 。 例 如 当 我 们 看 到 图 
12-17c 上 面 的 两 个 四 边 形 时 ,会 认为 3D 中 有 两 个 矩形 表面 在 边缘 处 相交 ， 认 为 这 条 边 是 透视 
缩短 后 形成 的 折 痕 。 图 12-17c 下 面 的 两 个 四 边 形 是 另 一 个 视点 的 图 像 ， 上 面 的 又 连接 和 箭头 
连接 变 成 了 下 面 的 T 连 接 ， 这 时 就 感到 是 一 个 表面 遮挡 了 另 一 个 表面 。 虚 拟 曲线 感知 效果 是 基 
于 相同 原理 的 另 一 种 表现 形式 。 事 实 上 ， 图 12-17 中 的 四 幅 图 都 是 基于 相同 的 原理 。 就 像 
Irving Rock 在 1983 年 的 论文 中 提 到 的 ， 人 类 视觉 系统 倾向 于 接受 关于 图 像 数 据 解释 的 最 简单 
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的 假设 。( 这 个 观点 能 解释 很 多 实验 现象 ， 结 果 使 视觉 过 程 类 似 于 推理 过 程 。 但 是 这 个 观点 似 
乎 和 有 的 实验 数据 矛盾 ， 使 视觉 编程 非常 困难 。) 

下 面 是 图 像 解 释 中 要 用 到 的 启发 式 规则 ， 其 中 没有 一 条 可 以 在 所 有 情况 下 都 能 给 出 正确 
的 解释 ， 很 容易 找到 反例 。 这 里 用 到 的 术语 边 ， 除 了 它 的 2D 含 义 外 ， 也 指 3D 中 的 折 痕 、 标 志 
或 阴影 。 

* 图像 中 的 一 条 直 边 ， 对 应 3D 中 的 一 条 直 边 。 

“2D 图 像 中 连接 点 的 边 ， 对 应 3D 中 角 的 边 。( 更 一 般 的 ，2D 中 的 重合 对 应 3D 中 的 重合 。) 

“2D 曲 线 上 的 类 似 目标 ， 对 应 3D 曲 线 上 的 类 似 目 标 。 

*。2D 多 边 形 区 域 ， 对 应 3D 多 边 形 面 。 

。2D 光 滑 曲 线 边 界 ， 对 应 3D 光 滑 目 标 。 

“。2D 对 称 区 域 ， 对 应 3D 对 称 目标 。 394 
12.5 透视 成 像 模型 

现在 推导 透视 成 像 的 代数 模型 。 建 立 摄像 机 坐标 系 C 中 的 点 与 实际 图 像 坐标 系 R 中 的 点 之 
间 的 关系 ， 其 推导 过 程 相 当 简单 。 首 先 考 虑 如 图 12-21 一 -一 


所 示 的 1D 情 况 。 对 于 从 飞机 上 直接 向 下 拍摄 平坦 地 平 OR Fos Ar mi 
面 这 类 问题 ， 图 12-21 所 示 的 情况 就 是 一 个 比较 合适 的 

模型 。 传 感 器 拍摄 到 点 B ， 该 点 投影 到 图 像 生成 点 E。 io 
传感器 坐标 系 的 中 心 是 点 DO，OB 长 度 在 光 轴 OA 上 的 分 

量 为 z.。 点 B 在 图 像 中 的 像 点 到 图 像 中 心 的 距离 是 x;。/ X RRT 


是 焦距 。 利 用 相似 三 角形 ， 可 得 到 公式 (12-1). AK 
说 明 实 际 2D 图 像 的 坐标 (或 尺寸 ) 等 于 3D 坐 标 《或 尺 
F) 乘 以 焦距 与 距离 之 比 。 只 要 所 有 的 3D 点 位 于 到 传 
感 器 距离 相同 的 同一 个 平面 上 ， 那 么 2D 图 像 就 是 对 3D 





\ 
\、X。 摄像 机 和 世界 





目标 的 缩小 版 。 这 个 模型 可 应 用 于 实际 ， 如 显微镜 分 Ate Xs 
析 、 航 测 图 像 分 析 或 扫描 文档 分 析 。 图 12-21 实际 图 像 平 面 和 前 图 像 平面 的 
Xiff =xc/ze Or Xi = (f/2e) Xe (12-1) 简单 透视 模型 。 利 用 相似 三 角 
f D 形 中 的 关系 zf = x./z.， 目 标的 
用 前 图 像 平 面 (front image plane) 比 用 实际 图 像 AER de BAIR JITE 


平面 更 方便 ， 因 为 在 前 图 像 平面 上 的 目标 与 实际 目标 联系 
的 方向 一 致 。 前 图 像 平面 是 一 个 抽象 图 像 平面 ， 它 与 
实际 目标 位 于 光 心 的 同一 侧 ， 到 光 心 的 距离 为 f。 在 前 图 像 平面 上 的 目标 ， 与 在 实际 图 像 平面 
上 的 目标 有 相同 的 比例 ， 而 方向 与 实际 目标 相同 。 前 图 像 平面 上 的 点 C 和 D 与 实际 图 像 平面 上 
的 点 F 和 B 对 应 。 透 视 成 像 公式 对 前 图 像 平 面 上 的 点 成 立 。 从 现在 开始 ， 我 们 用 的 都 是 前 图 像 
平面 。 

3D 到 2D 的 透视 投影 情况 参见 图 12-22 以 及 公式 模型 (12-2 )。x* 和 y 的 计算 公式 ， 推 导 过 程 
与 1D 情 况 类 似 ， 也 是 利用 相似 三 角形 推出 的 。 注 意 从 3D 到 2D 的 投影 ， 是 一 个 多 对 一 的 映射。 
从 图 像 点 到 3D 空 间 光 线 上 的 所 有 3D 点 都 对 应 同样 的 2D 图 像 点 ， 这 样 在 成 像 过 程 中 就 会 丢失 很 
多 3D 信 息 。 AR (12-2) 提供 一 个 代数 模型 ， 利 用 这 个 公式 ， 计 算 机 算法 构建 从 图 像 点 (x 
y) 进入 3D 的 光线 上 的 所 有 3D 点 的 集合 。 本 书 关 于 3D 工 作 的 讨论 中 ， 离 不 开 这 个 重要 的 数学 
公式 。 在 结束 这 个 话题 前 ， 要 强调 的 是 ， 公 式 (12-2) 的 简单 形式 ， 仅 仅 是 把 3D 概 像 机 系 中 
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的 点 与 2D 实 际 图 像 系 中 的 点 联系 起 来 。 涉 及 物体 坐标 系 或 实际 世界 坐标 系 中 的 点 时 ， 需 要 用 
到 代数 变换 ， 这 一 点 将 在 第 13 章 中 讨论 。 如 果 摄 像 机 以 恒定 距离 zx = ci 观察 平面 目标 ， 那 么 图 
像 只 是 目标 平面 的 简单 缩放 。 设 c,= jc ， 就 得 到 简单 的 关系 zi = cxx< 和 y = cyy.。 这 样 就 对 图 像 
坐标 进行 了 简化 ， 可 知 图 像 是 实际 目标 的 缩放 版 本 。 

Xi/f =Xe/Ze or Xi = (f/Z) Xe 


yi/f = Yelze or yi = (f/ze) Ye 


(12-2) 





图 12-22 透视 投影 到 2D 图 像 的 一 般 模型 





同比 例 缩放 的 特点 
摄像 机 垂直 向 下 正 对 一 张 桌子 ， 使 图 像 平 面 与 桌面 平行 (类 似 一 个 照片 放大 装置 ) ， 参 见 
图 12-21。 证 明 1in 长 的 钉子 放 在 桌面 上 的 任何 位 置 ， 只 要 处 于 视 场 中 ， 其 图 像 (线段 ) 都 有 相 
同 的 长 度 。 


228 视觉 引导 的 拖拉 机 
参见 图 12-23。 假 设 用 前 视 摄像 机 引导 农用 拖拉 机 前 进 ， 进 行 除草 和 施肥 。 如 图 所 示 ， 摄 


500 x 500 像素 








平面 (200mm dia.) 


图 12-23 视觉 引导 农用 拖拉 机 的 摄像 示意 图 。 参 见习 题 12.23 
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像 机 焦距 100mm ， 摄 像 机 距离 地 平面 3000mm。 视 场 角 是 50" ， 光 轴 与 地 平面 成 35" 角 。(a) 在 
拖拉 机 前 面 ， 沿 着 地 面 的 视 场 长 度 是 多 少 ? (b) 假设 作物 实际 间隔 500mm， 当 它们 处 于 视 场 
极限 位 置 时 ， 它 们 在 图 像 中 间隔 多 少 ? (图 像 间隔 因 靠 近 或 远离 作物 而 不 同 。) (c) 如 果 作 物 
大 体 上 是 球形 的 ， 直 径 200mm， 图 像 大 小 是 500 x 500 像 素 ， 那 么 作物 在 图 像 中 的 直径 是 多 少 
像素 ? (同样 ， 答 案 因 靠近 或 远离 作物 而 不 同 ) (d) 相 邻 的 作物 在 图 像 中 是 重合 在 一 起 还 是 
它们 之 间 有 间隔 ? 
12.6 通过 立体 视觉 求 深度 
如 图 12-24 所 示 ， 利 用 立体 视觉 传感器 确定 3D 点 在 空间 中 的 位 置 ， 只 需要 具备 简单 的 几何 
知识 和 代数 知识 。 小 心 放置 两 台 摄 像 机 ， 使 它们 的 X 轴 重合 ，7Y 轴 和 Z 轴 分 别 相 互 半 行 。7 轴 垂 
直 于 纸 面 ， 所 以 在 实际 推导 中 并 不 使 用 。 右 侧 摄 像 机 的 原点 或 投影 中 心 的 偏 移 量 为 5?，b 是 立 
体 视觉 系统 的 基线 (baseline)。 目 标点 P 在 左 图 像 中 对 应 点 为 P|， 在 右 图 像 中 对 应 点 为 P,。 通 
过 几何 分 析 ， 可 以 确定 点 P 位 于 光线 LE 和 RP, 的 交点 处 。 
根据 相似 三 角形 ， 得 出 公式 (12-3): 
z/f =x/x 
z/f = (x — b)/x, (12-3) 
z/f =y/yi = y/Yr 


从 图 中 可 以 看 出 ， 坐 标 y 和 ?是 相同 的 。 对 公式 (12-3) 做 一 些 变换 ， 就 可 以 得 到 点 P 的 两 个 
未 知 坐标 x 和 z。 
z= fb/(x1— xr) = fb/d 
x=xz/f=b + xz/f (12-4) 
y= yz/f = yr2/f 
在 求解 点 P 的 深度 时 ,我们 引入 了 视差 (disparity) 的 概念 ， 也 就 是 公式 (12-4) 中 的 d， 它 是 
左右 图 中 图 像 坐标 2% 和 xz 之 差 。 求 解 这 些 方程 就 可 以 得 到 点 P 在 3D 空 间 中 的 三 个 坐标 。 公 式 
(12-4) 说 明 ， 到 点 P 的 距离 随 着 视差 的 减 小 而 增加 ， 随 着 视差 的 增加 而 减 小 。 视 差 趋 近 零 时 ， 
距离 趋 近 无 穷 。 这 种 简单 的 立体 成 像 系 统 ， 在 两 个 y 图 像 坐标 间 没 有 视差 。 
定义 103” 当 同一 个 3D 点 投影 到 不 同 的 两 摄像 机 图 像 上 时 ， 对 应 点 在 图 像 上 的 位 置 差 
就 称 为 视差 。 


在 图 12-24 中 ， 要 定位 的 3D 空 间 点 P 是 一 个 简单 点 ， 在 确定 图 像 匹配 点 已 和 P, 时 不 会 出 现 
问题 。 对 包含 很 多 表面 点 的 实际 3D 场 景 ， 确 定 对 应 点 就 非常 困难 的 ， 因 为 通常 并 不 清楚 左 图 
像 中 的 哪个 点 与 右 图 像 中 的 哪个 点 对 应 。 假 设 有 一 对 如 图 12-12 所 示 的 玉米 田 图 像 ， 在 图 像 的 
各 行 有 很 多 相似 的 边缘 点 。 一 般 需 要 立体 摄像 机 做 精确 对 应 ， 只 有 这 样 才 可 以 保证 搜索 对 应 
点 时 是 在 两 幅 图 像 的 相同 行 中 进行 。 尽 管 已 经 知道 并 使 用 了 很 多 约束 ， 问 题 仍然 存在 。 很 明 
显 的 一 种 情况 是 ， 点 P 在 两 幅 图 像 中 都 看 不 到 。 玉 米田 的 稠密 纹理 造成 要 处 理 的 特征 点 过 多 , 
特征 点 过 少 的 相反 情况 也 很 常见 。 特 征 点 过 少 发 生 在 无 纹理 的 光滑 目标 ， 如 大 理 石 雕像 或 被 
白雪 遮挡 的 小 山 。 工 业 应 用 中 ， 可 以 利用 结构 光 人 为 地 加 上 特征 点 ， 如 图 12-14 所 示 。 后 面 进 
行 更 详细 的 讨论 。 

尽管 存在 上 述 困 难 ， 不 断 的 研究 和 改进 还 是 实现 了 几 个 商业 化 的 立体 视觉 系统 。 有 的 采 
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用 不 只 两 台 摄 像 机 。 有 的 系统 能 够 以 接近 摄影 机 帧 频 的 速度 ， 产 生 深 度 图 像 。 第 16 章 讨论 在 
ATM 机 上 通过 立体 视觉 系统 进行 身份 识别 。 





See, ae ae 


(x, z) 


图 12-24 简单 立体 视觉 系统 的 几何 模型 。 传 感 器 坐标 系 建立 在 左 眼 L (或 摄像 机 ) E, 
基线 是 2。 所 有 的 量 都 是 相对 工 测量 的 ， 只 有 xz 是 相对 于 R 测 量 的 





进行 下 面 的 简单 立体 视觉 实验 。(a) 看 一 本 书 ， 它 位 于 鼻子 前 面 约 30cm 处 。 轮 流 睁 开 一 
只 有 眼睛， 每 次 两 秒 钟 。 你 观察 到 特征 点 如 标题 字母 在 左右 图 像 中 的 视差 了 吗 ? (b) 让 书 位 于 
一 息 远 的 地 方 ， 重 复 实验 。 视 差 变 大 或 变 小 了 吗 ? (c) 小 心地 转动 书 。 你 能 找到 一 个 角度 ， 


在 这 个 角度 下 ， 右 眼 可 以 看 到 书 的 封面 而 左 眼 看 不 到 吗 ? 
or aaa 
假设 立体 摄像 机 基线 b = 10cm， 焦 距 f = 2cm， 观 察 点 P = (10cm, 1000cm) 的 成 像 情况 。 


参见 图 12-24。 注 意 点 P 位 于 右 摄 像 机 的 光 轴 上 。 假 设 由 于 各 种 误差 ， 图 像 坐标 z 比 实际 值 小 
1%， 而 图 像 坐标 z 是 准确 的 。 由 公式 (12-4) 算出 的 深度 z 的 误差 多 少 ? 以 cm 为 单位 。 


立体 显示 ”人 机 交互 中 为 了 将 3D 形 状 显示 给 用 户 ， 由 计算 机 图 形 系统 生成 立体 显示 效果 。 
图 形 问题 是 计算 机 视觉 的 逆 问 题 ， 所 有 的 3D 表 面 点 (x, y, z) 都 是 已 知 的 ， 系 统 要 做 的 是 建 
立 左右 图 像 。 根 据 公式 (12-4) 可 得 到 公式 (12-5)， 利 用 目标 点 坐标 (x, y, z) Rb 
距 /， 就 可 以 计算 出 图 像 坐标 (x y) 和 (x,，y,)。 因 此 , 已 知 目标 的 计算 机 模型 ， 图 形 系统 
就 能 产生 两 幅 图 像 。 这 两 幅 图 像 以 下 列 一 种 方式 传递 给 用 户 : (a) 利用 特殊 头 戴 式 显 示 器 ， 
将 一 幅 图 像 送 到 左 眼 ， 另 一 幅 送 到 右 眼 ; 或 (b) 利用 补 色 ,将 两 幅 图 像 交 赫 显 示 在 CRT 上 ， 
用 户 双 眼 戴 不 同 的 滤 光 镜 观 看 屏幕 。 如 果 不 需 要 运动 的 话 ， 还 有 廉价 的 第 三 种 方法 ， 即 双眼 
同时 观看 打印 在 单 色 纸 上 的 并 排 立 体 图 像 对 ， 就 会 融合 出 立体 景象 。( 例如 ， 双 眼 盯 看 文献 
Tamimoto (1998) 中 图 12-25 的 立体 对 。) 
x1 = xf /z 
x, = f(x —b)/z l (12-5) 
Yı = Yr = yf/z 
第 15 章 详细 讨论 了 立体 显示 如 何 用 在 虚拟 现实 系统 中 。 这 种 系统 使 用 户 能 自由 参与 到 3D 
虚拟 现实 的 场景 中 。 同 时 还 可 用 这 种 系统 ， 将 3D MRI 体 数据 结构 呈献 在 放射 专家 的 眼前 。 
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建立 对 应 关系 

立体 视觉 系统 最 难 的 部 分 不 是 深度 计算 ， 而 是 确定 在 深度 计算 中 使 用 的 对 应 关系 。 如 果 
对 应 关系 不 正确 ， 那 么 将 产生 不 正确 的 深度 ， 虽 然 可 能 只 是 一 小 点 偏离 ， 但 也 可 能 是 完全 的 
错误 。 本 节 中 ， 我 们 主要 讨论 寻找 对 应 关系 的 方法 和 一 些 有 帮助 的 约束 条 件 。 

1. 交叉 相关 | 

寻找 两 幅 图 像 像素 间 的 对 应 关系 ， 最 早 用 的 是 第 5 章 中 介绍 的 交叉 相关 技术 。 对 于 已 知 图 
B (立体 图 像 对 中 的 第 一 幅 图 像 ) 中 的 点 P,， 假 设 在 图 像 D (立体 图 像 对 中 的 的 第 二 幅 图 像 ) 
中 存在 某 个 固定 区 域 ， 在 该 区 域 中 一 定 可 以 找到 与 ,对 应 的 点 P;。 区 域 的 大 小 由 拍摄 这 些 图 
像 的 摄像 机 设备 信息 决定 。 在 工业 视觉 任务 中 ， 可 以 很 容易 地 根据 摄像 机 参数 得 到 这 个 信息 ， 
而 摄像 机 参数 又 可 通过 标定 过 程 得 到 (参见 第 13 章 )。 在 遥感 遥测 和 其 他 任务 中 ， 可 能 要 通过 
训练 图 像 和 地 面 实际 情况 来 估计 这 个 信息 。 不 论 哪 种 情况 ， 对 于 图 像 上 的 像素 P, ARLE 
选 定 区 域 ， 对 Pi 和 P: 的 邻 域 进行 交叉 相关 


运算 。 把 交叉 相关 响应 最 大 的 像素 ， 作 为 
P ,的 最 佳 匹配 点 ， 并 用 该 像素 寻找 对 应 
3D 点 的 深度 。 交 叉 相 关 技 术 已 经 成 功用 


于 寻找 卫星 和 航 测 图 像 的 对 应 关系 。 图 
12-25 显 示 交 叉 相 关 技 术 。 图 像 0 中 的 黑 点 图 像 1 RRL 
是 需要 寻找 对 应 关系 的 点 。 图 像 世 中 的 正 12-25 利用 交叉 相关 技术 寻找 立体 图 像 对 的 对 应 关系 
方形 区 域 是 要 搜索 匹配 的 区 域 。 

2. 图 符 匹 配 和 相关 约束 

寻找 对 应 关系 的 第 二 种 常用 方法 是 ， 在 一 幅 图 像 中 寻找 与 另 一 幅 图 像 特 征 相 匹配 的 特征 。 
典型 特征 有 连接 类 型 、 线 段 或 区 域 。 匹 配 可 采用 第 11 章 中 定义 的 一 致 性 标记 形式 。 部 件 集 P 是 
第 一 幅 图 像 I 中 的 特征 集合 。 标 记 集 L 是 第 二 幅 图 像 I 的 特征 集合 。 如 果 特 征 类 型 多 于 一 种 ， 
邦 么 部 件 的 标记 类 型 必须 与 部 件 类 型 相同 。( 注 意 一 般 要 避免 使 用 T 连 接 ， 因 为 连接 一 般 是 由 
边 与 边 之 间 的 遮挡 引起 的 ， 而 不 是 由 3D 目 
标的 结构 引起 的 。 ) 此 外 ，P 上 的 空间 关系 
Rb 要 与 L 上 的 空间 关系 R, 相 同 。 如 图 12-26 


























所 示 ， 如 果 要 匹配 的 特征 是 连接 点 ， 那 么 
对 应 的 连接 点 应 该 有 相同 的 类 型 (一 个 L 

连接 映射 到 另 一 个 L 连 接 )。 如 果 在 第 一 幅 Higi 

图 像 中 两 个 连接 由 一 条 线段 相连 (例如 L 图 12-26 利用 图 符 匹配 寻找 立体 图 像 对 的 对 应 关系 。 图 
连接 和 箭头 连接 ) ， 那 么 在 第 二 幅 图 像 中 ， 中 的 [连接 和 箭头 连接 是 可 能 的 匹配 点 。 一 般 
对 应 的 连接 之 间 也 由 一 条 线段 相连 。 如 果 尼 加 侈 信用 T 连 楼 ， 因 为 它们 通常 是 头 挡 的 结 


要 匹配 的 特征 是 线段 ， 那 么 匹配 可 利用 平 条 ， 而 不 是 3 结构 的 实际 特征 
行 、 共 线 等 关系 。 对 于 区 域 匹配 ， 可 以 使 用 区 域 邻接 关系 。 

这 就 带 来 了 一 个 问题 ， 这 个 问题 在 任何 立体 匹配 中 都 会 出 现 。 并 非 第 一 幅 图 像 中 的 所 有 
特征 都 可 以 在 第 二 幅 中 检测 到 。 由 于 视点 原因 ，-_ 些 特征 可 能 正好 看 不 到 。 某 些 特征 在 一 幅 
图 像 中 出 现 ， 但 在 另 一 幅 图 像 中 可 能 被 这 挡住 。 有 的 特征 可 能 检测 不 到 或 者 到 失 了 ， 而 有 的 
无 关 特 征 却 能 检测 到 。 所 以 不 能 期 望 图 符 匹 配 过 程 能 够 得 到 完美 的 一 致 性 标记 ， 而 应 允许 出 


A 
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现 一 定 的 误差 ， 可 以 寻找 一 种 最 小 误差 映射 ， 或 者 利用 连续 松弛 法 得 到 近似 解 。 

求 出 从 第 一 幅 图 像 特 征 到 第 二 幅 图 像 特 征 的 映射 后 ， 任 务 还 没有 完成 。 连 接点 的 对 应 关 
系 产 生 的 是 一 个 稀 足 深度 映射 ， 也 就 是 仅 在 很 小 的 点 集 上 深度 是 已 知 的 。 线 段 的 对 应 关系 可 
以 产生 端点 或 中 点 间 的 对 应 关系 。 对 于 区 域 间 的 对 应 关系 ， 还 要 做 其 他 工作 ， 以 确定 区 域 中 
的 哪些 点 是 相对 应 的 。 通 过 在 已 知 的 数值 之 间 线 性 插值 ， 使 稀疏 深度 映射 变 得 稠密 。 可 以 想 
R, 这样 做 会 带 来 很 大 的 误差 ， 也 许 这 就 是 为 什么 在 实际 中 ， 尤 其 是 当 图 像 不 是 工业 场景 而 
是 自然 场景 时 ， 仍 然 广泛 使 用 交叉 相关 的 原因 。 

3. 外 极 线 约束 

如 有 果 已 知 摄像 机 的 相对 方向 ， 则 可 以 大 大 简化 立体 匹配 过 程 。 对 于 一 幅 图 像 上 的 已 知 点 ， 
在 另 一 幅 图 像 中 寻找 它 的 对 应 点 ， 这 时 要 进行 二 维 空间 搜索 。 如 果 知 道 摄像 机 的 相对 方向 ， 
就 可 以 利用 图 像 对 的 外 极 线 几何 (epipolar geometry) 使 搜索 在 一 维 空间 进行 。 图 12-27 显 示 
的 是 简单 情况 下 的 外 极 线 几何 情况 。 两 图 像 面 位 于 同一 平面 并 且 与 基线 平行 。 已 知 图 像 中 的 
FAP, = (x, y) ， 则 图 像 卫 中 的 对 应 点 P= (x2，y2) 与 已 位 于 相同 的 扫描 线 上 ， 也 就 是 7 = y 
我 们 称 这 对 图 像 为 标准 图 像 对 。 





图 12-27 标准 图 像 对 的 外 极 线 几何 。3D 点 了 在 图 像 上 中 的 投影 为 P ， 在 图 像 工 中 的 投影 为 P,， 
两 幅 图 像 位 于 同一 平面 ， 与 两 摄像 机 间 的 基线 平行 。 光 轴 垂 直 于 基线 并 互相 平行 
虽然 规定 这 个 标准 结构 使 几何 处 理 变 得 很 简单 ， 但 把 摄像 机 这 样 布置 有 时 是 不 行 的 ， 而 
且 这 个 结构 产生 的 视差 不 大 ， 不 能 据 此 得 出 精确 的 深度 信息 。 一 般 的 立体 视觉 结构 中 ， 摄 像 
机 具有 随意 的 位 置 和 姿态 ， 二 者 要 能 够 观察 到 目标 的 主要 部 分 。 图 12-28 显 示 一 般 情 况 下 的 外 
极 线 几何 。 
定义 104 ”包含 3D 点 P、 两 个 光 心 (或 摄像 机 ) Ci 和 C:、 以 及 P 在 两 幅 图 像 中 的 投影 
点 也 和 了 P.: 的 平面 称 为 外 极 面 (epipolar plane). 
定义 105 外 极 面 与 两 幅 图 像 平 面 I 和 I 的 交 线 e/ 和 e, 称 为 外 极 线 (epipolar line), 


在 图 像 下 中 ， 已 知 外 极 线 e: 上 的 点 Pi 和 摄像 机 的 相对 姿态 (参见 第 13 章 ) ， 就 可 以 找到 图 
像 I 中 对 应 的 外 极 线 e;， 在 e; 上 必然 存在 对 应 点 P,。 如 果 在 图 像 I 中 ， 另 一 个 点 Pi' 位 于 与 P, 不 
同 的 外 极 面 上 ， 那 么 它 也 将 位 于 不 同 的 外 极 线 上 。 


定义 106 立体 图 像 对 的 外 极点 (epipole) 就 是 所 有 外 极 线 的 交点 。 
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点 E, 和 EE, 分 别 是 图 像 I 和 I, 上 的 外 极点 。 





图 12-28 一 般 图 像 对 的 外 极 线 几何 。3D 点 P 在 图 像 1 中 的 投影 为 P ， 在 图 像 中 的 投影 为 P,， 
两 图 像 面 不 在 一 个 平面 上 。 了 在 图 像 D 中 的 外 极 线 是 ce ， 对 应 点 P, 在 图 像 中 的 外 
极 线 是 e,，EE 是 图 像 的 外 极点 ， 而 E, 是 图 像 I 的 外 极点 
4. 顺序 约束 
已 知 场景 中 的 两 个 点 和 它们 在 两 幅 图 像 中 的 投影 点 。 顺 序 约束 指 的 是 ， 如 果 这 两 点 位 于 场 
景 中 的 连续 表面 上 ， 那 么 在 每 幅 图 像 中 ， 它 们 以 相同 的 顺序 位 于 外 极 线 上 。 这 个 约束 比 外 极 线 
约束 更 有 意义 ， 因 为 在 进行 匹配 时 ， 我 们 并 不 知道 两 个 图 像 点 对 应 的 3D 点 是 否 位 于 相同 的 3D 表 
面 。 该 约束 有 助 于 寻找 可 能 的 匹配 ， 但 如 果 严格 应 用 这 个 约束 ， 则 可 能 引起 对 应 关系 的 错误 。 
5. 误差 与 场景 覆盖 
在 设计 立体 视觉 系统 时 ， 要 在 场景 覆盖 与 计算 深度 的 误差 间 求 得 平衡 。 如 果 基 线 很 短 ， 
确定 图 像 点 P, 和 P; 的 位 置 时 误差 就 较 小 ， 但 在 计算 3D 点 P 的 深度 时 误差 就 较 大 ， 可 以 从 示意 图 
中 推出 这 个 结论 。 增 大 基线 可 以 改进 搜索 精度 ， 但 是 随 着 摄像 机 彼此 远离 ， 图 像 点 之 间 的 对 
应 关系 可 能 会 丢失 ， 因 为 遮挡 的 可 能 性 更 大 了 。 建 议 两 摄像 机 光 轴 间 最 好 是 成 45" 角 。 


12.7 ” 落 透 镜 方程 

薄 透 镜 的 工作 原理 参见 图 12-29 所 示 。 
来 自 目标 点 P 并 与 光 轴 平 行 的 光线 穿 过 透 
镜 和 焦点 ,到达 像 点 p'。 从 P 出 发 的 其 他 光 
线 也 到 达 p'， 因 为 透镜 具有 光线 收集 器 的 
作用 。 穿 过 光 心 的 光线 沿 直线 到 达 p'。 从 
p' 出 发 并 与 光 轴 平行 的 光线 穿 过 透镜 和 第 
二 个 焦点 By。 7 ; 





根据 图 12-29 的 几何 原理 ， 可 以 推导 出 “图 12.29 薄 透 镜 原理 。 来 自 目标 点 P 并 与 光 轴 平行 的 光 
注 透 镜 方程 。 因 为 距离 与 从 RR 到 0 的 距离 线 穿 过 透镜 和 焦点 FF 到 达 像 点 p'。 从 Pp' 出 发 并 
相同 ， 由 相似 三 角形 ROF, 和 Sp 下 ,可 得 下 列 与 光 轴 平行 的 光线 穿 过 透镜 和 第 一 个 焦点 尼 


公式 。 





> 
A 
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X x 
f z (12-6) 
利用 相似 三 角形 POT 和 p'OS 得 到 第 二 个 公式 
X x’ 
f+Z fz (12-7) 
EAA (12-6) 中 X 的 值 代 人 公式 (12-7) 得 到 
P = Zz (12-8) 
用 u - fAREZ, Mv - ,代替 z 得 到 
uv = f(u +v) (12-9) 


最 后 在 两 边 除 以 《uvf)， 得 到 最 常用 的 透镜 方程 ， 这 个 形式 建立 了 焦距 与 物 距 w 和 像 距 v 之 间 的 


_1 + 1 
=F 5 (12-10) 


1. 焦距 和 景深 
如 图 12-29 所 示 , 假设 对 点 P 的 像 点 进行 了 调 焦 ,如 果 成 像 平面 前 后 移动 , 像 点 将 变 得 模糊 ， 
如 图 12-30 所 示 。 对 v 成 立 的 透镜 公 


如 果 成 像 平面 不 动 而 点 P 移 动 ， 改 
变 了 物 距 x， 透 镜 方程 也 不 成 立 。 
在 这 两 种 情况 中 ， 成 像 平面 上 得 
到 的 不 是 清晰 的 点 ， 而 是 由 点 扩 
展 成 的 直径 为 2 的 圆 。 我 们 现在 要 

















建立 该 圆 大 小 与 摄像 机 分 辩 素 和  ; 
景深 的 关系 。 — 了 PM 

假设 模糊 圆 的 直径 ?为 1 个 像 图 12-30 如 果 点 的 深度 或 图 像 平面 的 位 置 与 透镜 方程 不 符合 ， 点 
素 时 是 可 以 接受 的 。 从 这 个 假设 P 的 像 点 将 变 得 模糊 。 如 果 S 是 P 产 生 清晰 像 点 的 图 像 位 
出 发 ， 计 算 在 这 个 模糊 限度 内 ， 置 ， 那 么 当 图 像 平面 移动 到 S' 或 "时 ，P 的 像 点 将 变 得 
点 卫 到 摄像 机 的 最 近 和 最 远 距 离 。 模糊 成 为 直径 为 b 的 贺 


设 物 距 w 是 要 测量 的 正常 深度 ，v 是 根据 透镜 方程 得 到 的 理想 像 距 ，a 是 透镜 的 孔径 ,是 焦距 。 
具体 参见 图 12-30。 在 上 述 条 件 下 能 够 得 到 清晰 的 像 点 ， 现 在 研究 要 保证 模糊 直径 在 5 以 内 ，u 
可 被 改变 多 少 。 

对 于 图 12-30 中 v 的 极端 情况 ， 由 相似 三 角形 得 到 
= at, 对 于 v>v 


_ (12-11) 
v=2 b, 对 于 < 
a 


v 
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注意 ， 根 据 透镜 方程 ， 对 于 v'>v， 到 摄像 机 的 距离 w' 比 w 短 ; Xtv<v, MWER. HAR 
近 点 u,， 它 将 产生 如 图 所 示 直 径 为 b 的 模糊 圆 ， 利 用 反映 w、v 和 /关系 的 透镜 方程 ， 以 及 公式 
(12-11) 中 v>v 时 的 公式 ， 可 以 算出 最 近 点 4。 


fv frv 
— a 
v- f = ath y f 
f Ge = ` 
— a (u- 
— atb) uf (12-12) 
a (u-f) 7 
_ uf(at+b) _ u(a +b) 
~ af + bu — a + 2u 











RE, FU ot Ak, EA EMOS, TUBASE FE Ru, 
u, = CE (12-13) 

定义 107 ”对 于 给 定 的 成 像 参数 和 模糊 限度 ， 最 远 平 面 和 最 近 平面 之 间 的 距离 就 是 

景深 。 

因为 一 般 情况 是 x>f。 从 公式 (12-12) 的 最 后 可 以 看 出 w<u。 保 持 其 他 条 件 不 变 ， 如 果 焦 
距 / 变 短 ， 将 使 最 近 点 4 更 靠近 摄像 机 。 同 样 可 以 解释 4,>u， 并 且 缩 短 /将 使 最 远 点 离 摄像 机 更 
远 。 因 此 ， 焦 距 较 短 的 透镜 比 焦距 较 长 的 透镜 有 更 大 的 景深 。( 不 幸 的 是 ， 焦 距 较 短 的 透镜 一 
BULIMIA LAE. ) 

2. 分 辩 率 与 模糊 

理想 的 光学 CCD 摄 像 机 ， 如 果 具 有 n 行 像素 ， 在 最 好 的 情况 下 可 以 分 辨 出 n/2 条 直线 ， 其 
中 相 邻 的 直线 间 保证 有 一 个 像素 的 间隔 。512 x 512 的 CCD 阵 列 可 以 检测 到 256 条 暗 线 ， 这 些 线 
被 一 像素 宽 的 亮 像素 行 分 隔 开 。( 如 果 必要 的 话 ， 沿 垂直 光 轴 的 方向 轻微 移动 摄像 机 ， 直 到 图 
AHA SIRAE( 791) A A A ERE BR, WHA RRA HL Ble 
形成 灰色 图 像 。 上 面 给 出 的 公式 使 我 们 可 以 根据 给 定 的 检测 问题 设计 出 相应 的 成 像 仪器 。 
旦 知道 要 检测 什么 特征 ， ‘LARS MRED. RADA EME aie, 


定义 108 ”摄像 机 的 分 辨 力 (resolving power) 定义 为 R,= 1/(2A)， 单 位 为 line/in. (或 

mm )， 其 中 A 是 以 in. (mm) 为 单位 的 像素 间距 。 

例如 有 正方 形 CCD 阵 列 , 边 长 10mm，500 x 500 像 素 ， 那么 分 辨 力 是 1/(2 x 2 x 10-?mm/line)， 
或 者 25 line/mm 。 假 设 黑白 胶卷 由 相隔 5 x 10-3?mm 的 卤化 银 分 子 组 成 ， 那 么 分 辨 力 是 100 
line/mm, 2500 line/in.。 人 有 眼中 感知 颜色 
的 锥 状 体 ， 紧 密 排 列 在 一 起 ， 形 成 中 央 凹 ， 
大 约 间 隔 A = 10-“in.。 换 算 成 视网膜 上 的 分 
WD, Æ5 x 103 line/in.。 假 设 人 眼 直径 是 
20mm = 0.8in.， 则 可 以 算出 图 12-31 中 的 对 
边 角 为 6 ~ sin(9) = 2A/0.8in. = 2.5 x 10I E. 2 000mm 
这 大 约 是 一 弧 分 ， 意味 着 人 类 能 够 检测 到 2 米 图 12-31 人 类 视网膜 上 的 微小 目标 图 像 
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外 墙 上 0.5mm 宽 的 铅笔 线条 。 
12.8 总 结 性 讨论 

本 章 研究 了 2D 图 像 结 构 和 3D 表 面 及 目标 间 的 关系 。 人 类 协同 利用 这 些 关 系 ， 感 知 世 界 并 
在 其 中 自由 穿行 。 尽 管 只 对 深度 和 立体 视觉 与 焦距 变化 的 关系 进行 了 详细 讨论 ， 但 也 归纳 了 
很 多 现象 的 定量 模型 ， 这 些 现象 包括 从 明暗 恢复 形状 和 从 纹理 恢复 形状 等 。 对 艺术 家 而 言 ， 
这 些 模 型 是 重要 的 工具 , 尤其 是 运用 计算 机 图 形 学 , 通过 2D 画 布 或 者 2D 图 形 表达 出 3D 结 构 时 ， 
就 更 是 如 此 。 在 第 13 章 中 ， 将 讨论 如 何 利用 这 些 方 法 ， 根 据 2D 图 像 自动 识别 目标 的 3D 结 构 。 
我 们 要 提醒 读者 ， 其 中 有 些 方法 可 靠 性 或 者 精度 太 差 ， 不 能 单独 使 用 ， 除 非 是 在 某 些 受 控 环 
境 中 使 用 。 用 这 些 算 法 为 户外 导航 机 器 人 提供 实时 视觉 仍 是 一 个 困难 的 问题 ， 这 也 是 当前 比 
较 活 跃 的 研究 领域 之 一 。 





在 文艺 著作 中 找到 广场 或 者 雅典 卫 城 的 图 画 ， 复 制 一 份 。 标 出 艺术 家 作画 时 用 到 的 消 隐 
点 和 消 隐 线 。 
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第 13 章 ”3D 感 知 与 目标 位 姿 计 算 


本 章 主要 关心 2D 图 像 结 构 与 3D 目 标 结构 之 间 的 定量 关系 。 上 一 章 主要 讨论 了 图 像 和 现实 
之 间 的 定性 关系 。 本 章 我 们 将 研究 如 何 进 行 视 觉 测量 与 计算 ， 这 些 测 量 与 计算 在 3D 目 标识 别 
与 检测 以 及 机 器 人 操作 与 导航 中 都 要 用 到 。 

举 个 例子 ， 请 参考 图 13-1。 为 了 设计 出 更 好 的 驾驶 室 环境 ， 需 要 对 驾驶 员 的 开车 姿势 进 
行 测量 。 图 13-2 显 示 的 是 另 一 种 应 用 场合 ， 为 了 让 机 器 人 能 够 抓 起 零件 ， 视 觉 系统 要 先 识别 
出 3D 零 件 并 确定 零件 的 位 姿 。 这 时 ， 拍 摄 系统 和 机 械 臂 要 在 3D 世 界 坐 标 系 下 进行 信息 交互 。 





图 13-1 驾驶 室 安装 了 4 个 摄像 机 ， 这 两 幅 图 是 其 中 两 个 摄 ”图 13-2 线 框图 覆盖 在 3D 目 标的 图 像 上 


像 机 拍摄 的 。 多 摄像 机 测量 系统 用 来 计算 身体 上 一 面 。 计 算 机 视觉 用 于 识别 目标 并 

些 点 的 3D 位 置 (图 中 用 椭圆 标记 的 地 方 )， 根 据 这 确定 目标 位 置 。 识 别 系统 把 2D 零 

些 点 的 3D 位 置 就 可 算出 人 体 姿 势 (图 片 由 密 吹 根 州 件 图 像 与 3D 零 件 模型 进行 匹配 ， 

立 大 学 人 类 工程 学 实验 室 罗伯特 瑞 纳 德 提供 ) 并 根据 模型 计算 要 得 到 这 幅 图 像 
所 需 的 3D 几 何 变换 。 然 后 再 把 每 
个 零件 的 标识 与 位 姿 信息 反馈 到 
机 器 人 控制 器 (图 像 由 Mauro 
Costa 提供 ) 


本 章 讨论 3D 感 知 中 的 一 些 工 程 学 和 数学 问题 。 先 通过 几何 分 析 对 问题 进行 简单 说 明 ， 然 
后 推导 出 数学 模型 。 数 学 上 主要 是 关于 3D 变 换 的 代数 运算 。 另 外 还 要 介绍 3D 模 型 的 作用 ， 不 
同 传感器 的 配置 以 及 传感器 的 标定 过 程 。 


13.1 一 般 体 视 结构 

图 13-3 是 常见 的 立体 视觉 系统 ， 两 个 摄像 机 同时 观察 同一 个 工作 区 。 在 计算 机 图 形 学 中 ， 
常常 采用 右手 坐标 系统 ，z 轴 的 负 方 向 由 摄像 机 向 外 ， 这 样 距离 摄像 机 较 远 的 点 ， 其 深度 坐标 
的 负 值 就 较 大 。 在 本 章 的 多 数 模型 中 ， 我 们 采用 正 深度 坐标 ， 但 有 时 候 使 用 另 一 套 坐标 系统 ， 
主要 是 为 了 和 文献 出 处 保持 一 致 。 图 13-3 是 常见 的 立体 视觉 结构 ， 不 需要 12 章 中 对 两 台 摄像 
机 安装 位 置 提出 的 特殊 要 求 。 两 台 摄像 机 观察 工作 台 上 相同 的 工件 区 ， 这 时 工作 台 就 是 一 个 
完整 的 3D 世 界 ， 并 且 有 自己 的 世界 坐标 系 W。 可 以 直观 地 看 到 ， 工 作 区 中 3D 点 "P = ["P,, "P, 
"P.] 的 位 置 ， 可 通过 两 条 投影 线 "P'O 和 "P?O 的 交点 确定 。 在 13.3.3 节 中 ， 给 出 计算 交点 的 数学 
推导 过 程 。 计 算 方 法 很 简单 ， 但 测量 误差 会 使 问题 变 得 复杂 。 
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图 13-3 两 摄像 机 Ci 和 Cs 观 测 相同 的 3D 工 作 区 。 工 件 上 的 点 P 在 第 一 幅 图 中 的 投影 为 P， 
在 第 二 幅 图 中 的 投影 为 呈 

为 了 进行 图 13-3 所 示 的 立体 视觉 计算 ， 需 要 已 知 下 列 条 件 : 

* 首先 要 知道 摄像 机 Ci 在 工作 区 WW 中 的 位 姿 ， 以 及 摄像 机 的 一 些 内 部 参数 ， 如 焦距。 这 些 
信息 用 摄像 机 算 阵 (camera matrix) 来 表示 ， 对 每 一 个 图 像 点 下 通过 该 矩阵 确定 了 3D 空 
间 中 的 一 条 光线 。 利 用 第 13.3 节 和 13.7 节 介绍 的 摄像 机 标定 过 程 可 以 得 到 这 些 信 息 。 

“ 同样 要 知道 摄像 机 C, 在 工作 区 W 中 的 位 姿 以 及 它 的 内 部 参数 ， 也 就 是 需要 它 的 摄像 机 
矩阵 。 

“要 找 出 3D 点 与 两 个 2D 图 像 点 〈" 卫 , 'P, 多) 之 间 的 对 应 关系 。 

。 要 有 公式 来 计算 两 条 投影 线 "P!O 和 "”P20 的 交点 中 。 

在 讨论 这 些 条 件 之 前 ， 对 于 图 13-3 所 示 的 视觉 系统 ， 我 们 先 介绍 配置 上 的 三 种 重要 情况 。 

“ 图 13-3 中 包括 两 台 摄像 机 ， 它 们 在 世界 坐标 系 中 的 位 置 要 进行 标定 。 通 过 计算 两 对 应 图 
像 点 的 投影 线 的 交点 ， 得 到 3D 点 的 坐标 。 

“ 其 中 一 台 摄像 机 可 用 投影 仪 代替 。 投 影 仪 通过 一 东 光 照 亮 一 个 或 更 多 的 表面 点 ,或 者 投 
射 特殊 图 案 如 交叉 十 字 线 ， 如 图 13-4 所 示 。 后 面 我 们 将 会 看 到 ， 投 影 仪 的 标定 方式 和 摄 
像 机 的 标定 情况 非常 相似 。 发 出 的 光线 与 到 摄像 机 的 投影 线 有 相同 的 代数 表达 方式 。 当 
一 个 表面 上 没有 明显 的 特征 ， 需 要 对 表面 上 的 点 进行 测量 时 ， 使 用 投影 仪 就 有 很 多 优点 。 

“ 目标 的 模型 知识 可 以 取代 一 台 摄像 机 。 假 设 图 13-3 中 的 锥 形 物 高 度 已 知 ， 即 "PP 已 知 ,也 
就 是 说 点 P 被 限制 在 平面 z = “P. 上 。 通 过 计算 来 自 摄像 机 C,; 的 投影 线 与 该 平面 的 交点 ， 
就 很 容易 地 算出 其 他 两 个 坐标 。 很 多 情况 下 模型 信息 会 带 来 足够 的 约束 条 件 ， 这 时 只 用 

412 一 台 摄 像 机 就 够 了 。 

13.2 3D 仿 射 变 换 

2D 空 间 的 仿 射 变换 已 经 在 第 11 章 讲 过 ， 这 一 章 把 它 扩展 到 3D 空 间 。 这 些 变换 不 仅 对 3D 机 
器 视觉 来 说 非常 重要 ， 而 且 对 于 机 器 人 学 和 虚拟 现实 也 非常 重要 。 基 本 变换 是 平移 、 旋 转 、 
缩放 和 剪 切 。 这 些 基 本 变换 可 以 明确 表示 出 来 。 而 有 一 些 变换 就 很 难 明确 表示 。 为 了 方便 我 
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们 仍然 采用 齐 次 坐标 ， 把 3D 点 [P,。P,，P4 表 示 为 [5P,。sP,, SPa s]，s 是 非 零 的 比例 系数 。( 像 前 
面 一 样 ， 点 的 坐标 竖 直 排列 ， 但 在 不 引起 歧义 的 情况 下 我 们 会 省 去 转 置 符号 。) 本 章 在 表示 一 
个 点 时 ， 经 常 要 用 到 脚 标 ， 内 为 命名 的 坐标 系 比 11 章 更 多 。 关 才 变 换 ， 要 增加 从 3D 空 间 到 2D 
空间 的 透视 、 正 交 、 弱 透视 投影 等 内 容 。 


20 ?Y 






2x 
\ 投影 仪 


\、 AR FF 
\ 线 或 网 格 





wy 
图 13-4 在 一 般 体 视 系统 中 ， 用 投影 仪 代替 一 台 摄 像 机 。 与 图 13-3 具 有 相同 的 几何 
和 代数 约束 。 但 投影 仪 能 够 为 无 特征 的 表面 带 来 表面 特征 


13.2.1 坐标 系 
为 了 定量 地 确定 点 在 空间 中 的 位 置 ， 需 要 定义 坐标 系 (coordinate frame 或 coordinate 
system)。 图 13-5 是 一 个 场景 四 个 不 同 的 相对 坐标 系 ， 锥 形 物 顶点 P 有 了 四 种 不 同 的 坐标 表示 方 


式 。 首先， 点 P 在 CAD 模 型 中 表示 为 wP=[" 忆 , P,P] =[b/2,b/2, 到 中， 其 中 是 底 边 长 度 ， 


这 个 CAD 模 型 的 位 姿 就 是 图 中 所 示 的 情况 。 其 次 ， 在 工作 台 坐 标 系 中 锥 形 物 顶点 P 的 坐标 为 : EB 
b b V2 
Wp _ ["P., "Py, *P,] = TR > 7’ Fl ’ (13-1) 





其 中 TR 是 坐标 系 M 相 对 坐标 系 W 的 旋转 与 平移 的 组 合 变换 。 最 后 ， 如 果 两 个 传感器 C 和 传 感 
器 D (或 者 是 人 ) 从 工作 台 的 相对 方向 观察 锥 形 物 ， 点 PP 和 点 Q 之 间 的 左右 关系 就 是 相反 的 ， 
它们 的 坐标 值 是 不 同 的 ， 即 下 = [Po P, “PJ]#* = [PPh Pp P]. 

为 了 使 传感器 之 间 、 传 感 器 与 场景 中 3D 物 体 之 间 、 传 感 器 与 机 械 手 之 间 联 系 起 来 ， 我 们 
用 数学 方法 推导 各 坐标 系 之 间 的 关系 。 用 同样 的 方法 能 够 建立 空间 中 物体 的 运动 模型 。 为 了 
方便 ， 我 们 用 符号 来 表示 坐标 点 对 应 的 坐标 系 以 及 坐标 变换 的 方向 。 用 MT 表示 把 模型 坐标 点 
MP 变换 成 工作 台 坐 标点 "P 的 变换 ， 具 体 如 下 : 

Wp=WT™P (13-2) [414 

这 种 表示 方法 是 Craig 在 1986 年 的 机 器 人 学 教材 中 采用 的 ， 在 推导 目标 运动 或 者 进行 目标 
匹配 时 ， 这 种 方法 特别 有 用 。 在 坐标 系 一 旦 了 然 的 情况 下 ， 我 们 使 用 简单 的 表示 方法 。 下 面 
我 们 继续 学 习 变换 。 
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图 13-5 点 了 的 坐标 可 表示 在 四 个 不 同 的 坐标 系 中 。(1) 模型 坐标 系 M，(2) 世界 或 
工作 台 坐 标 系 内，(3) 传感器 C 和 传感器 D 的 坐标 系 。 随 着 坐标 系 的 不 同 点 
卫 的 坐标 也 不 同 ， 例 如 在 传感器 坐标 系 C 下 ， 点 P 在 点 Q 的 左边 ， 而 在 传感器 
坐标 系 D 下 ， 点 P 在 点 Q 的 右边 
13.2.2 平移 
对 坐标 系 1 中 的 点 'P 的 三 个 坐标 x。、yo 和 zo。， 加 上 一 个 平移 向 量 就 得 到 坐标 系 2 中 的 点 中 。 
在 图 13-5 的 例子 中 ， 为 了 将 模型 坐标 点 与 它 在 工作 台 上 的 位 姿 联系 起 来 ， 需 要 做 平移 (Sit 
转 ) 变换 。 
?P = T(Xo. yo, 20) 'P 


2P, 1 0 0 xl 'P, 
2P 0 1 0 yolli!'P 

2p _ y| 0 y 

P= lop |=lo 0 1 wil E (13-3) 
1 000 1 1 


13.2.3 缩放 
3D ARE HE HE — PERRI LE A. AI PAROLE ABR AAA, dn 
度量 单位 改变 时 ， 或 者 把 模型 初始 化 为 一 定 尺 十 时 采用 同比 例 缩放 。 
IP = S ŻP = S(s,, Sy, 5,) 'P 


P, sx 7 Px Sy 0 0 0 LP, 
P| _|sy2P,| |0 s 0 olfr, (13-4) 
2P, s: ?P, 0 0 s 0llip, 
] 1 0 0 0 1 1 


13.2.4 旋转 
通过 矩阵 来 表示 绕 坐 标 轴 的 基本 旋转 特别 容易 。 我 们 需要 做 的 就 是 写 出 矩阵 的 列 向 量 ， 
也 就 是 旋转 变换 下 单位 向 量 的 变换 值 。( 回想 一 下 ， 任 何 3D 线 性 变换 ， 都 完全 可 以 通过 三 个 基 
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向 量 的 一 系列 变换 表示 。) 绕 z 轴 的 变换 实际 上 与 11 章 的 2D 变 换 一 样 ， 只 不 过 这 时 公式 中 包含 
着 3D 点 的 z 坐 标 。 图 13-6 显 示 基 本 旋转 下 基 向 量 的 变换 情况 。 415 
了 也 





图 13-6 分 别 绕 X 轴 ( 左 )、Y 轴 CH) 和 Z 轴 (A) 旋转 6 角 


绕 X 轴 旋转 9 角 : 
2P = R(X, 0) !P 
2p. 1 0 0 O|f'P, 
P| _ |O cos@ -sing 0|| 'P, (13-5) 
*P.| |O sing cos@ -of 1P, 
1 0 0 Od” `i 1 
绕 Y 轴 旋转 6 角 : 
?P = R('Y, 6) 'P 
2P cosg 0 sind Oļ['P, 
2 0 1 © O'R (13-6) 
?P,| ~— |-sing 0 cosg 0llip, 
1 0 0 0 1 
绕 Z 轴 旋转 9 角 : 
?P = R('Z,0)!P 
>P; cosé —sinð 0 0O]f['P, 
2 i 1 
Py} _ |sin@ cosd ‘OF O||'P, J 
| TES O00. cb O44 Sp. R 
1 0 Quid 1 1 


A 
pan 
CN 





求 旋转 矩阵 ， 以 原点 到 点 [1, 1, 0]' 之 间 的 直线 为 轴 ， 逆 时 针 旋转 zy4 角 度 。 


加 


给 定 旋转 角 6 绝 度 以 及 坐标 轴 的 方向 余弦 [cu c,, c]'， 如 何 建立 旋转 矩阵 ? 
例题 :世界 坐标 系 W 经 变换 得 到 摄像 机 坐标 系 C ( 见 下 页 右 图 )， 推导 旋转 与 平移 的 组 合 
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变换 矩阵 。 

为 了 得 到 旋转 矩阵 R， 根 据 C 中 的 基 向 量 坐 
标 ， 我 们 写 出 W 中 的 基 向 量 坐 标 ， 反 过 来 W 中 
的 坐标 点 就 可 以 变换 成 C 中 的 坐标 点 。 


2 = cz oc 


Wx = —— CX +0 CY + — 


Wy = EE (13-8) 
“z= wg to €z 

E 表示 坐 
标 系 C 相 对 于 坐标 系 W 的 方向 , 一旦 旋转 摄像 机 ， wx 
世界 坐标 系 中 的 点 就 沿 z 轴 平移 4， 以 使 世界 坐标 
系 的 原点 在 C 坐 标 系 中 的 坐标 为 [0,0,d]'。 最 终 的 坐标 转换 为 : 


0 go 

C O° el 0 

TR = 

W _Vi 一 
3 ta 
0 0 1 





检验 WTR” Oy =% TRIO, 0, 0, 1]' =[0, 0, d, 1] =€ Oy, , 以 及 wER"O, = = rm 420,421 = 
[0, 0, 0, 1]' =€ O. 是 成 立 的 。 

考虑 上 一 个 例子 的 环境 ， 将 一 个 立方 体 放 在 世界 坐标 的 原点 Ow 处 。 将 它 的 角 点 KK 变换 成 
摄像 机 坐标 系 下 的 坐标 。 通 过 计算 IIK;- Kill, 证明 摄像 机 坐标 系 下 有 四 条 边 具 有 单位 长 度 。 
13.2.5 任意 旋转 

任何 旋转 都 可 以 表示 成 公式 (13-10) 的 形式 。 系 数 思 组 成 的 矩阵 是 一 个 标准 正 交 和 矩阵 ， 
所 有 的 行 和 列 都 是 相互 正 交 的 单位 向 量 。 前 面 所 有 的 基本 旋转 矩阵 都 具有 这 样 的 特性 。3D 空 
间 的 任何 刚体 旋转 都 可 以 表示 成 围绕 轴 A 旋 转 一 定 的 角度 9。A 不 一 定 是 坐标 轴 ， 它 可 以 是 3D 
空间 中 的 任意 轴 。 为 了 弄 明 白 这 一 点 ， 假 设 要 把 基 向 量 区 变换 为 不 同 坐 标 系 下 的 向 量 芭 。 旋 
转轴 A 由 和 和 人 的 又 积 得 到 ， 如 果 芭 是 旋转 不 变 的 ， 那 么 它 本 身 就 是 旋转 轴 。 


?P = R(A, 0) P 
aP, ri r2 rs O]['P, 
=P, = i Tay 723 0 LP, (13-10) 
"P, ra r32 r3 0||1P 
1 1 | 1 


因此 ， 刚 体 从 时 刻 # 到 时 刻 t 的 运动 结果 ， 就 可 以 用 一 个 平移 向 量 和 一 个 旋转 矩阵 表示 ， 
而 与 它 在 这 段 时 间 内 的 真正 轨迹 无 关 。 一 个 齐 次 矩阵 能 够 同时 包含 平移 和 旋转 ， 其 中 有 6 个 参 
数 : 3 个 旋转 参数 和 3 个 平移 参数 。 
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Ps Tma Ps 3b Ps 
Py li Pa Ta. by Py 

ZPH | rst Ta ta | | IP, (13-11) 
1 0 0 0 «i 1 





参考 图 13-7， 求 齐 次 变换 矩阵 ， 它 把 位 于 原点 的 立方 体 的 所 有 和 角 点 都 映射 成 另 一 个 立方 
体 的 对 应 角 点 。 候 设 角 点 IO 映射 到 *0， 中 喘 映 到， 并 且 是 刚性 变 欣 


13.6 旋转 矩阵 的 逆 

证 明 旋转 矩阵 总 是 可 逆 的 。 求 公 式 (13-10) 中 旋转 矩阵 R(4, 5) 的 逆 。 
13.2.6 基于 变换 的 比 对 

这 里 讨论 如 何 比 对 模型 三 角形 与 拍摄 
到 的 三 角形 。 这 个 例子 具有 一 定 的 说 服 力 ， 
它 通过 一 步 步 的 变换 演算 得 出 结果 。 更 重 
要 的 是 ， 它 通过 模型 三 角形 的 3 顶点 与 拍摄 
的 三 角形 的 3 顶点 对 齐 ， 提 供 比 对 任何 刚体 
模型 的 基本 方法 。 以 学 过 的 基本 变换 为 基 
础 ， 通 过 代数 运算 就 可 以 得 出 结果 。 图 13-8 
和 图 13-9 借 助 几 何 图 形 形 象 地 演示 了 这 个 变 
换 过 程 。 图 13-7 同一 立方 体 的 两 个 视图 

问题 是 如 何 得 到 变换 MT， 使 三 角 模 型 
的 顶点 A、B 和 C 映 射 成 工作 区 中 与 之 相合 的 三 角形 顶点 D、E 和 F。 为 了 做 到 这 一 点 ， 我 们 同 
时 对 这 两 个 三 角形 进行 变换 ， 使 AB 边 与 "X 轴 重合 ， 并 使 整个 三 角落 在 W 坐 标 系 中 的 X- Y 平 
面 内 。 这 时 A 与 D、B 与 E、C 与 F 的 坐标 一 定 是 相同 的 。 对 变换 结果 进行 整理 ， 就 能 得 出 我 们 
要 求 的 变换 MT， 它 把 坐标 点 MP 映射 成 对 应 的 坐标 点 "P;。 对 这 个 过 程 进 行 归纳 形成 算法 13.1。 
显而易见 ， 每 一 步 都 是 可 行 的 ， 而 且 都 是 可 逆 的 ， 但 实现 算法 需要 认真 编程 ， 仔 细 设 计数 据 
结构 。 这 是 一 个 比较 重要 的 方法 ， 理 论 上 任何 两 个 相合 的 刚体 ， 都 能 通过 比 对 三 个 对 应 点 而 
使 两 个 刚体 对 齐 。 事 实 上 ， 当 比 对 远离 AABC 的 那些 点 时 ， 测 量 和 计算 误差 有 可 能 带 来 很 大 
的 偏差 ， 因 此 常常 要 用 到 更 多 的 点 ， 采 用 最 优化 的 计算 方法 。 


算法 13.1 计算 刚体 变换 WT， 使 模型 点 A、B、C 与 实际 点 D、E、F 对 齐 
1. 输入 3D 模 型 的 三 个 点 A、B 、C 和 对 应 的 3D 实 际 点 D、E、F。 
2. 求 平 移 变换 MT,， 移 动 三 个 模型 点 ， 使 点 A 与 世界 坐标 系 原点 重合 。 求 平移 变换 
wT,， 移 动 三 个 实际 点 ， 使 点 D 与 世界 坐标 系 原点 重合 。 这 时 在 W 坐 标 系 中 只 对 
齐 了 点 A 和 点 D。 
3. 求 旋转 变换 WR1， 使 AB 边 与 X 轴 重合 。 求 旋转 变换 %R,， 使 DE 边 与 X 轴 重合 。 
XI FEW Ltr AP MFP SABI AIDED. 
4. 求 绕 X 轴 的 旋转 变换 wR3， 使 点 C 落 进 X-Y 平 面 。 求 绕 X 轴 的 旋转 变换 WRs， 使 点 
F 落 进 X-Y 平 面 。 现 在 在 W 坐 标 系 中 三 个 点 都 已 经 对 齐 。 





Z [3, 4, 1] 
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5 现在 模型 三 角形 和 实际 三 角形 重合 在 一 起 ， 用 公式 表示 如 下 : 
WRs WR: WT, MP; = WR, WR. WT, YP, (13-12) 


WP; = (Ty! Rz! Ra! R; Ri Ti) MP; (13-13) 







6. 返回 NT = (Tz! Ry! R}! Rs R; Ti) 


MT1 
| 
F i 
E 
A 
WD Xw Ww Xw 
| | 
B 








1 
1 旋转 轴 是 "ic 
| DE x Xw | AB x Xw 
Yw l Yw | 
WRB) WR, (a) 
| 
1 C I 
| | 
F 1 
1 Y 
Y 
W x A x 
D E y wW B = 


图 13-8 (PartI) 三 角形 比 对 。 作 ABC 是 模型 三 角形 ， 而 人 DEF 是 拍摄 的 三 角形 。 首 先 ， 
对 两 三 角形 进行 平移 ， 使 A 和 D 与 原点 重合 。 然 后 ， 通 过 旋转 使 线段 AB 和 DE 与 
X 轴 重合 


平移 矩阵 的 逆 


证 明 平 移 矩阵 总 是 可 逆 的 。 公 式 (13-3) 中 平移 矩阵 TU t t) 的 逆 是 什么 ? 








可 以 看 出 ， 如 果 I4-Bllz* IID-Ell， 则 算法 13.1 就 会 失败 。 请 加 入 合适 的 测试 方法 和 误差 返 
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回 ， 解 决 这 种 三 角形 不 相合 的 情况 。 
一 





C 
对 算法 13.1 ,编写 程序 并 进行 测试 ， 。 F 
比 对 模型 三 角形 与 世界 坐标 系 下 的 相 
合 三 角形 。 对 每 个 基本 运算 都 用 单独 ， 
的 函数 实现 。 D rm w 
en E E E er E | 1 


(a) 证 明 算法 13.1 返 回 的 变换 矩阵 ， 
把 模型 点 A 映射 到 实际 点 D， 把 模型 点 
B 映 射 到 实际 点 E， 把 模型 点 C 映 射 到 实 
际 点 F。(b) 证 明 在 变换 过 程 中 ， 模 型 
上 的 其 他 点 与 A、B 、C 之 间 的 距离 保 
持 不 变 。(c) 证 明 , 如果 通 过 刚体 变换 ， 
具有 n 个 顶点 的 刚性 多 面体 模型 能 够 与 
实际 目标 对 齐 ， 那 么 利用 算法 13.1 只 比 ” 图 13-9 (Part IL) 三 角形 比 对 ( 接 图 13-8)。 对 两 个 三 角形 做 
对 两 个 三 角形 就 可 以 得 到 这 个 转换 。 旋转 ， 旋 转轴 是 X 轴 ， 三 角形 最 终 落 在 X-Y 平 面 内 。 
13.3 摄像 机 模型 AC、DF 与 X-Y 平 面 的 夹 角 决 定 了 旋转 角 的 大 小 


这 一 节 我 们 将 会 看 到 ， 公 式 (13-14) 中 的 摄像 机 模型 C， 是 较 合适 的 透视 成 像 代数 模型 ， 
还 会 看 到 对 于 固定 摄像 装置 如 何 确定 矩阵 中 的 元 素 ， 然 后 计算 机 利用 这 些 和 矩阵 元 素 进 行 3D 测 
量 计算 。 

= Ip = CYP (13-14) 


WP, wp 
S P, s wp cii Ci2 «C13 ely wp 
s Po|=wC|w P = ]C2 c2 c3 C24 |] w P 
s ii ca Ca Ga ol s 
_ [en ¢12 citei o [YP "P; "P, 1] 

[c31 €32 c33 1] o [TP WP, WP, 1 


_ [e21 €22 €23 C4] 0 [“P, “Py “P, 1] 
fen ea candl of XP, YP, YPN 





'p. 


Ip, 





下 一 步 证 明 这 个 3 x 4 的 摄像 机 矩阵 wC: .表示 透视 成 像 变 换 ， 它 把 实际 的 3D 点 wP = ["P,, 
“P,, "PJ 投影 成 图 像 点 了 = ['P,, 'P.J'。 这 个 矩阵 模型 有 足够 的 参数 ， 可 以 作为 世界 坐标 系 W 和 
摄像 机 坐标 系 C 之 间 的 坐标 变换 模型 ， 以 及 透视 变换 和 实际 图 像 坐 标 到 图 像 阵 列 行列 坐标 的 缩 
放 变 换 模型 。 该 矩阵 方程 采用 齐 次 坐标 形式 。 从 公式 (13-14) 可 以 看 出 比例 系数 * 的 点 积 形 
式 。 下 面 讨论 如 何 求 取 摄 像 机 和 矩阵 wC 的 参数 。 

13.3.1 透视 变换 矩阵 

第 12 章 中 已 经 给 出 过 透视 变换 的 代数 表达 式 ， 把 结果 改写 为 公式 (13-15) 的 形式 。 这 些 

公式 是 在 世界 坐标 和 摄像 机 坐标 单位 一 致 的 情况 下 推出 的 。 另 外 ， 图 像 坐标 [5P,。 5P,] 的 单位 


A 
N 











了 72 BIZ = 








与 3D 空 间 坐标 的 单位 一 样 ， 而 不 是 用 像素 坐标 单位 。( 上 标 F 表 示 浮 点 数 ， 而 不 是 焦距 ， 在 透 
视 变 换 和 矩阵 中 用 参数 夸 示 焦距 。) 
:PVA = °P,/"P, or FP, = (f/°P,) P, 


13- 
FP /f = P,/"P, or Fp, ~ (F/°P:) cp, ( 15) 


图 13-10 表 示 纯 透视 变换 ， 仅 有 一 个 参数 /， 即 焦距 。 公 式 (13-16) 中 的 矩阵 CT] (六 是 4x4 
形式 ， 这 样 可 以 和 其 他 的 变换 矩阵 进行 合成 。 不 过 ， 第 三 行 的 ^P. = /不 是 必需 的 ， 最 终 将 被 忽 
略 ， 也 常常 不 写 出 来 。 注 意 这 个 矩阵 的 秩 
是 3 而 不 是 4， 所 以 它 的 逆 是 不 存在 的 。 

Fp = CIICA) EP 





1/f oll 1 Zc=0 
图 13-10 摄像 机 坐标 系 的 原点 在 投影 中 心 ， 恒 有 "P,=f 
田 一 种 透视 变换 是 把 摄像 机 坐标 系 的 原点 放 在 图 像 中 心 ， 使 *P,= 0， 如 图 13-11 所 示 。 投 
影 和 矩阵 如 公式 (13-17) Pra. 该 公式 的 优 
AEF., 5f- “时 就 得 到 正 投 影 。) 
Fp = EIC f) EP 
10 0 of, 
srp _}0 1 0 0} SP,] (13-17) 
0|| CP, 
s 00 Wf iti 图 13-11 摄像 机 坐标 系 的 原点 在 图 像 中 心 ， 恒 有 “P.=0 
像 图 13-3 所 示 的 一 般 情况 ， 世 界 坐 标 系 W 与 摄像 机 坐标 系 C 不 一 致 。 需 要 经 过 旋转 和 平移 
把 世界 坐标 点 "P 变 换 成 摄像 机 坐标 点 PP。 需 要 知道 三 个 旋转 参数 和 三 个 平移 参数 ， 但 它们 以 
复杂 的 方式 结合 在 一 起 而 构成 变换 矩阵 的 元 素 ， 从 前 面 几 节 的 内 容 也 能 够 看 到 这 一 点 。 
CP = T(t, ty, &)R(æ, B, y) YP 
Cp = CTR(a, B, y, tx, ty, tz) YP 





“Py rn n2 m ty |p P ( 
13-18) 
“Py | _ | far ra ra ty |] “Py 
P; ra rn ra hjj ”P 
1 0 0 0 1 1 


Em EA ARK, TG SUAWHIC, ERARA PSS ER EP 
个 过 程 的 变换 模型 。 忽 略 矩 阵 中 的 第 三 行 ， 因 为 *P, 只 是 个 常量 。P 位 于 实际 图 像 平面 ， 通 过 
缩放 变换 可 以 得 到 行列 像素 坐标 吴 。 请 复习 线性 代数 中 有 关 和 矩阵 乘法 方面 的 知识 。 
FP = EIS) CP 
= COS) (WIR(, B, y, tx, ty, tz) YP) 
= (SHOPD8TR(o, B, y, tx, ty, t:)) YP 


3D Kita 5 FARK HH 313 


Wp. 
s *P, dı d2 d3 dig wp 
s FP, | =| di dn d} da Wp. (13-19) 


s dl dz d3 1 


公式 (13-19) 中 的 矩阵 用 必 表 示 元 素 ， 而 不 是 用 cj， 因为 它 不 是 我 们 想 要 的 摄像 机 矩阵 。 到 
目前 为 止 所 有 的 推导 采用 的 都 是 实际 长 度 单位 ， 如 毫米 或 英寸 ， 并 不 包括 到 行列 像素 点 的 缩 
放 变 换 。 把 毫米 到 行列 像素 转换 的 变换 系数 加 入 公式 (13-19), 很 容易 得 到 完全 摄像 机 和 矩阵 C。 
假设 实 值 单位 的 像素 横 坐 标 是 4.， 纵 坐标 是 d,。 实 值 坐标 ["P,, “P,] 的 参考 坐标 系 的 原点 [0.0， 
0.0] 位 于 图 像 的 左下 角 ， 下 一 步 我 们 想 用 整 值 坐标 [xr, c] 代 替 实 值 坐 标 ，[r, c] 表 示 图 像 阵 列 的 
像素 行列 坐标 ， 整 值 坐标 的 参考 坐标 系 原点 [0, 0] 位 于 图 像 的 左上 角 。 从 实 值 到 整 值 像素 的 变 
换 ， 包 括 纵 轴 方向 的 改变 ， 表 示 如 下 : 


sor s FP, 
Ip=|s c =1S Sp, (13-20) 
其 中 iS 定 义 为 : 


(13-21) 








完全 摄像 机 矩阵 将 实际 3D 坐 标点 转换 成 图 像 像 素 点 ， 最 后 结果 为 : 


'p = (FS EN(S) GTR(@, B, y, te, ty, tz)) YP 


f "P 
s F Cii Cl2 C13 C44 Wp. (13-22) 
| | C22 C23 =| wp 
s C31 C32- 033 1 
也 就 是 公式 (13-14) 中 的 完全 摄像 机 和 矩阵 。 

利用 摄像 传感器 建立 3D 点 的 视觉 模型 ， 对 这 个 过 程 我 们 简单 做 个 总 结 。 首 先 安放 摄像 机 ， 
使 它 的 坐标 系 与 世界 坐标 系 重合 ; 接 下 来 转动 摄像 机 (WR )， 使 它 相 对 W 系 满足 最 后 的 方向 
BR; 然后 平移 摄像 机 (w.T)， 使 它 从 合适 的 位 置 观察 工作 区 ， 这 时 利用 透视 投影 模型 
(eT): 所 有 的 3D 点 都 能 够 投影 到 摄像 机 的 图 像 平面 ; 最 后 对 实 值 图 像 坐 标 [5P， “P,] 进 行 
缩放 变换 ， 并 改变 纵 轴 的 方向 就 可 以 得 到 像素 坐标 [iP,, 吧 ]。 所 有 步骤 我 们 用 的 都 是 数学 推导 
方法 。 利 用 距离 和 角度 测量 数据 得 到 足够 精确 的 摄像 机 矩阵 C， 然后 再 以 足够 的 精度 进行 上 述 
变换 ， 实 际 上 这 个 过 程 执 行 起 来 是 有 难度 的 。 一 般 是 通过 对 摄像 机 进行 标定 来 获得 摄像 机 和 盾 
阵 。 上 面 的 推导 证 实 了 摄像 机 和 矩阵 的 形式 是 对 的 ， 利用 第 13.4 节 要 描述 的 控制 点 拟 合 方法 ， 
可 以 得 到 摄像 机 矩阵 参数 的 实际 值 。 在 讨论 标定 之 前 ， 我 们 先 看 看 摄像 机 矩阵 的 重要 用 途 。 


”IN 


根据 这 一 节 讨 论 ， 很 容易 看 出 摄像 机 和 矩阵 具有 如 下 形式 : 





S 
a 


427 
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Wp 
ake ve Cii Crs, C13 C14 wp 
s 人 已 |=|c cz c3 ca wp (13-23) 
C31 C32 ，C33 C34 

证 明 通 过 把 摄像 机 矩阵 乘 以 系数 1/cs4， 就 可 以 由 12 个 参数 变 成 公式 (13-22) 中 的 11 个 参 
数 的 形式 ， 验 证 11 参 数 的 形式 同样 能 够 实现 从 3D 场 景点 到 2D 图 像 点 的 映射 。 


13.3.2 正 投影 与 弱 透 视 投影 
“P 的 正 投影 不 考虑 实际 点 的 z 坐 标 ， 等 价 于 沿 与 光 轴 平行 的 方向 把 每 个 实际 点 投影 到 图 像 


平面 。 图 13-12 对 正 投影 和 透视 投影 做 了 比 ec vt B Czc OB 
较 。 正 投影 可 以 看 作 是 焦距 /无 穷 远 的 透视 -一 一 站 一 Da ea 一 个 
投影 ， 如 公式 (13-24) 所 示 。 在 计算 机 图 ay} 


形 学 中 ， 常 常 通过 正 投影 表达 目标 截面 的 
真正 尺度 。 正 投影 也 在 计算 视觉 理论 的 研 
究 中 得 到 应 用 。 正 投影 比 透视 投影 更 简单 ， 
因此 在 许多 情况 下 用 它 来 近似 透视 投影 进 “4 = 物 距 
行 理论 检验 。 

Fp = FII(0o) P 

cp, 
*P,|_[1 0 0 O]/°P,} (13-24) 
lllo 1 0 J cp 


z 





ag i rs 


图 13-12 透视 投影 与 正 投影 
通常 ， 透 视 变换 能 够 用 正 投影 和 实际 图 像 


平面 内 的 同比 例 缩放 来 近似 。 不 考虑 z 坐 标 以 及 采用 同比 例 缩放 的 投影 ， 称 为 弱 透视 (weak 
perspective)。 比 例 系 数 * =f/4， 是 摄像 机 焦距 与 物 距 之 比 ， 该 比例 系数 非常 有 用 ， 参 见 图 13-12。 
Fp = EII(s) €P 


Cp, 
| oft 0.0) 2P, (13-25) 
P|. (os 0 OP 

1 


根据 经 验 ， 当 物 距 是 物体 大 小 的 20 倍 时 ， 这 种 弱 透 视 近似 是 可 以 接受 的 。 近 似 效果 也 与 
物体 离 光 轴 的 距离 有 关 ， 这 个 距离 越 近 越 好 。 当 图 13-12 中 的 三 角形 物体 偏离 光 轴 的 右 侧 很 远 ， 
则 点 A 和 B 的 透视 像 点 将 会 篮 拥 在 一 起 ， 直 到 B 点 被 A 点 挡住 。 然 而 对 于 正 投影 ， 与 点 A 和 点 B 
对 应 的 像 点 之 间 将 保持 原来 的 距离 。 大 多 数 机 器 人 和 工业 视觉 系统 都 尽量 将 物体 放 在 视 场 的 
中 心 。 对 于 航空 成 像 应 用 也 是 如 此 。 在 这 些 情况 下 ， 弱 透视 是 比较 合适 的 模型 。 


ery 


假设 -~， 根 据 公 式 (13-16) 推导 出 公式 (13-24), 
用 弱 透 视 代替 实际 透视 ， 常 常 使 数学 推导 与 算法 变 得 更 加 容易 。 对 于 识别 算法 中 的 匹配 ， 
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经 常 是 用 近似 模型 就 足够 了 。 另 外 对 于 利用 实际 透视 模型 的 复杂 和 迭代 算法 ， 封 闭 形式 的 弱 透 
视 解 能 够 提供 一 个 比较 好 的 初始 点 。Huttenlocher 和 Ullman (1988) 在 这 个 问题 上 已 经 发 表 了 
一 些 基础 性 的 文章 。 表 13-1 对 实际 透视 和 能 透视 进行 了 比较 。 在 表格 中 所 示 的 范围 内 ， 由 其 
中 的 数据 可 以 看 出 弱 透 视 是 实际 透视 很 好 的 近似 模型 。 


表 13-1 弱 透 视 与 实际 透视 








"P f= 5mm s = 5/1000 f=20mm s = 20/ 1000 f=50 s = 50/1000 
0 0.000 0.000 0.000 0.000 0.000 0.000 
10 0.051 0.050 0.204 0.200 0.510 0.500 
20 0.102 0.100 0.408 0.400 1.020 1.000 
50 0.255 0.250 1.020 1.000 2.551 2.500 
100 0.510 0.500 2.041 2.000 5.102 5.000 
200 1.020 1.000 4.082 4.000 10.204 10.000 
500 2551 2.500 10.204 10.000 25.510 25.000 
1000 5.102 5.000 20.408 20.000 51.020 50.000 





用 s = 11000 弱 透视 eGs) ， 对 3D 点 [5P。0.980]* 进 行 变换 ， 将 此 变换 与 透视 变换 CTT, 做 比较 ， 计 算 比较 
值 'P.。 透 视 变换 的 知 距 是 5mm、20mm 和 50mm。 物 距 取 标 称 值 1000mm， 弱 透视 的 比例 系数 设 为 //1000， 
利用 公式 (13-25) 的 弱 透 视 模型 ， 得 到 用 8 个 参数 定义 的 弱 透 视 变换 模型 : 

Fp = FIle GTR YP 


ri rz rs tx |{ YP 
FP, af s 0 0 Of} ra rn rz ty "P, (13-26) 
EP» ra 732 133 te || WP. 

0 OQ OO» 1 1 


WP, (13-27) 





AK (13-27) 中 ， 弱 透视 变换 的 8 个 参数 中 只 有 7 个 独立 参数 ， 这 7 个 独立 参数 是 什么 ? 
13.3.3 基于 多 摄像 机 的 3D 点 计算 

下 面 我 们 讨论 如 何 根据 两 个 像 点 [rm, c1] 和 [7, cz] 算 出 未 知 的 3D 点 [x, y, z]， 两 个 像 点 由 标定 
好 的 两 台 摄像 机 摄取 。 因 为 现在 点 的 坐标 系统 现在 是 明确 的 ， 所 以 在 点 的 表示 符 中 省 去 了 上 
角 标 。 图 13-3 显 示 了 视觉 系统 的 环境 ， 公 式 (13-14) 给 出 了 每 台 摄像 机 的 模型 。 由 成 像 公式 
可 以 得 到 4 个 线性 方程 ， 其 中 包含 3 个 未 知 数 x、y 和 z。 


sr} bı biz bi bi4 
sci |=| ba by bn bag 


s bs bz b3 | 


=æ N Y X 
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x 
172 C1ll Cl2 C13 C14 y 
fcz |=|c2 c2 C23 C24 z (13-28) 
C31 C32 c3 1 1 


MAK (13-28) 中 去 掉 齐 次 坐标 9 和 +#， 就 得 到 下 面 含 3 个 未 知 数 的 4 个 线性 方程 。 
ry = (bii — bziri)x + (bi2 — ba2ri)y + (b13 — b33r1)z + big 
cl = (ba — b31c1)x + (b22 — b32c1)y + (b23 — b33c1)z + baa 

r2 = (C11 ~ c31r2)x + (C12 — C3272)y + (C13 一 C3372)z + C14 (13-29) 


C2 = (C21 一 C31C2)x + (C22 — €32€2) 9 + (C23 一 C33C2)2 + c24 


4 个 方程 中 的 任意 3 个 联 立 都 可 以 得 出 未 知 点 [x, y, z]， 但 求 出 的 坐标 值 会 产生 微小 的 差异 。 
4 个 方程 同时 联 立 在 一 起 是 予 盾 的 ， 因 为 摄像 机 模型 和 图 影 点 的 近似 误差 ， 两 台 摄像 机 的 投影 
线 并 没有 在 数学 3D 空 间 相 交 于 一 点 。 最 好 的 解决 方案 是 计算 这 两 条 空间 斜 交 投影 线 之 间 的 最 
短 上 距离 ， 也 就 是 计算 它们 公 垂 线段 的 长 度 。 如 果 公 垂 线 比 较 短 ， 我 们 就 取 公 垂 线 的 中 点 作为 
两 条 投影 线 的 交点 ， 即 图 13-13 中 的 点 [x, y, z]。 如 果 公 垂 线 太 长 ， 那 么 就 断定 在 进行 像 点 [7， 
cd 和 [m, cj] 对 应 计算 时 出 现 了 问题 。 


P, 






P, 和 和 Ps 是 一 条 直线 上 的 两 个 点 ， 而 Qi 和 Qs 是 男 外 -- 
条 直线 上 的 两 个 点 。uy 和 和 us 是 沿 两 条 直线 的 单位 向 量 。 向 
量 V = Pi+a u- (Qi + a, u) 就 是 连接 两 条 直线 的 最 短 距 
[x, y, z] = YP Beit, Kpa Ma EAN ERE WAAR. A TEVE 
长 度 最 小 ， 利 用 求 导 方法 可 以 确定 mw 和 az。 而 利用 V 一 定 正 
交 于 mu 和风 这 个 约束 条 件 ， 可 以 更 容易 算出 ww 和 ea， 


Pi + aıt 





Q2 ' 
Q; + a 





u 


Qı 
图 13-13 两 条 空间 斜 交 线 之 间 的 最 短 距 离 ， 就 是 它们 之 间 公 重 线 线段 的 长 度 
利用 两 空间 斜 交 线 与 公 垂 线 正 交 这 一 约 东 条件 ， 可 以 得 到 如 下 2 个 含 未 知 数 w 和 wa; 的 线性 


方程 : 
((Pi+au) — (Qı + au2)) ou 





(Bi 十 alul) — (Qı +a202))ow = (13-30) 
la, — (Wy 0 u2)a2 = (Q; — Py) o u; 
(uy ou)a — laz = (Qi — P1) ou (13-31) 
利用 消 元 法 或 者 行列 式 法 可 以 很 容易 解 出 a 和 a,。 
a= (Qi — Pi) ou — (Qi — Pi) o uz) o (u ow) 
a 1 — (uy ow)? 
(13-32) 


_ (Qi —- Pı) o u)(u ouw) — (Qi — Py) o w 
a = 2 
] 一 (uy O 〇 U2) 


如 果 IsVI 小 于 某 个 阔 值 ， 我 们 就 认为 两 条 直线 相交 于 点 [be y, 可 = (1/2) (P, + a u) + ( Qi+ 
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a u2)]。 回 头 看 看 我 们 会 发 现 ， 所 有 的 计算 都 依赖 于 两 点 (PAP) 确定 一 直线 。 通 常 投影 线 
由 摄像 机 光 心 和 图 像 点 决定 。 如 果 光 心 未 知 ， 通 过 选择 某 个 值 z = zx: ， 然 后 解 公式 (13-19) 中 
的 两 个 方程 求 出 坐标 x 和 y， 就 得 到 第 一 个 摄像 机 投影 线 上 的 一 个 点 。 如 果 这 条 线 同 z 轴 接近 平 
行 的 话 ， et iin 





te OO 


用 你 最 擅长 的 程序 语言 ， 设 计 一 个 函数 并 进行 测试 ， 计 算 两 条 空间 斜 交 线 之 间 的 距离 以 
及 公 重 线段 的 中 点 。 ne 2 eee EE 


NI 





用 Cramer 法 则 求解 公式 〈13-31) 中 的 w 和 wa: 时 ， 要 求 系数 矩阵 的 行列 式 不 为 零 。 证 明 这 
种 情况 一 定 发 生 在 两 台 摄像 机 同时 观察 同一 个 点 时 。 

我 们 可 以 用 一 台 摄 像 机 和 一 台 投 影 仪 来 进行 3D 表 面 测 量 。 几 何 上 和 数学 上 都 等 同 于 两 台 
摄像 机 的 情况 。 这 样 做 最 大 的 好 处 就 是 ， 投 影 仪 能 够 在 光滑 的 表面 上 人 为 产生 纹理 ， 以 便 定 
又 特征 点 并 进行 对 应 计算 。 在 讨论 完 通过 标定 得 到 摄像 机 和 投影 仪 模型 之 后 ， 接 着 再 介绍 结 
构 光 的 使 用 。 


13.4 最 佳 仿 射 标定 矩阵 


摄像 机 标定 问题 ， 就 是 建立 像素 点 在 给 定 摄像 机 的 图 像 阵 列 中 的 位 置 与 3D 场 景 中 要 成 像 
的 实 值 点 之 间 的 关系 。 总 的 来 说 ， 这 个 过 程 在 图 像 分 析 的 各 个 方面 都 要 用 到 ， 包 括 计算 目 标 
的 3D 位 置 和 姿态 以 及 测量 目标 的 尺寸 。 在 第 13.3.3 节 的 立体 三 角 计算 中 也 要 用 到 。 

在 第 13.3 节 已 经 讲 过 ， 公 式 (13-14) 中 
的 11 参 数 摄像 机 矩阵 是 比较 合适 的 数学 模型 。 
下 面 我 们 介绍 如 何 用 最 小 二 乘 拟 合 的 方法 求 
出 这 11 个 参数 的 值 。 摄 像 机 的 视 场 和 焦距 不 
变 ， 标 定 物 放 在 场景 中 合适 的 地 方 ， 标 定 物 
上 面 的 测量 点 坐标 已 知 ， 具 体 参 考 图 13-14。 
得 到 "组 数据 < 了 P,，"P>， 其 中 图 像 点 也 = [P。 
'P.]， 对 应 被 观测 的 3D 点 是 wP; = ["P,, "P, 
“PJ]。 点 数 n 至 少 是 6 个 ， 最 好 是 25 或 者 更 多 。 


13.4.1 标定 物 





swears 图 13-14 左边 标定 物 上 有 高 度 不 等 的 9 个 销 子 (可 
用 标定 物 (calibration jig) 主要 是 方便 以 旋转 三 次 ， 这 样 就 能 得 到 25 个 标定 点 )， 


找到 明确 的 3D 点 的 位 置 。 图 13-14、13-18 和 右边 显示 的 是 标定 物 的 图 像 

13-22 用 到 了 三 个 不 同 的 标定 物 。 需 要 仔细 确定 标定 物 在 凤 坐 标 系 中 的 位 置 ， 或 者 定义 的 世界 
坐标 系 能 够 使 3D 特 征 点 的 坐标 ["P,, "P,, ”P.] 容 易 确定 。 然 后 通过 摄像 机 概 取 图 像 ， 得 到 对 应 
这 些 特征 点 的 2D 华 标 ['P,, 'P.]。 其 他 类 型 的 标定 物 ， 有 的 是 用 金属 线 和 小 球 构成 的 刚体 架 ， 有 
的 是 带 有 特殊 标记 的 刚体 板 。 


13.4.2 最 小 二 乘 问题 
从 成 像 模型 中 消去 齐 次 系数 ;就 能 够 得 到 公式 (13-33)。 这 样 对 应 每 条 投影 线 ， 就 有 两 个 


ee 


= 





D 
w 
= 





318 #13 全 


线性 方程 ， 而 每 个 标定 点 对 应 一 条 投影 线 。 为 了 简化 表示 方法 ， 同时 又 不 引起 符号 上 的 混乱 ， 
我 们 用 [x， Y; ZIRE P, =["P., YP, WP,] 来 表示 实际 点 ， 用 [zi v Jít $FP, =('P,, 'P.] 表 示 图 像 点 。 
对 应 每 一 个 标定 点 ， 可 以 得 到 下 面 两 个 方程 : 
uj = (cn — C314 j)xj + (C12 一 C3227)77 + (E13 一 €334j)2j + C14 
(13-33) 
vj = (cri 一 C31VI)X) + (c22 一 C32V))Y; + (C23 一 C33V))2) + C24 
对 上 面 的 方程 进行 整理 ， 把 已 知 项 和 未 知 项 分 开 并 用 向 量 表 示 。 有 了 标定 数据 ， 左 边 的 
各 项 是 已 知 项 ， 右 边 的 所 有 ci 项 是 需要 求 的 未 知 项 。 


C21 
Xj, Yj, Zj. 1, 0, 0, 0, 0, Tea yun Ta | — [s] (13-34) 
0,0,0,0, xj, Yj Zj» 1, TXjU;, TYjVj, 一 ZU 


由 于 对 应 每 条 投影 线 能 得 出 两 个 方程 ， 从 nn 组 标定 点 就 能 得 到 2x 个 线性 方程 ， 用 矩阵 方式 
表示 时 ，x 是 未 知 的 列 向 量 ，b 是 图 像 坐标 列 向 量 。 
AznxliX11x1 © bznxl (13-35) 


可 以 看 出 只 有 11 个 未 知 数 ， 但 是 方程 的 个 数 有 12 个 或 者 更 多 ， 这 是 一 个 超 定 系统 。 不 存在 
满足 所 有 方程 的 参数 向 量 x， 因 此 用 最 小 二 乘法 得 到 的 结果 是 较 合 适 的 解 。 我 们 希望 所 求 的 参 
数 能 够 满足 如 下 条 件 ， 即 实测 图 像 坐标 与 经 摄像 机 年 阵 预 测 的 坐标 之 间 的 差 平 方 和 最 小 。 
13-16 显 示 2 个 标定 点 产生 4 个 坐标 差 。 与 第 11 音 一 样 称 这 些 坐 标 差 为 余 差 (residual)。 图 13-17 
是 对 最 小 二 乘 解 的 抽象 表示 。 我 们 想 求 出 用 拢 阵 A 各 列 的 线性 组 合 表示 的 一 组 参数 cu KE 
性 组 合 与 b 最 接近 。 求 解 这 个 问题 的 关键 是 要 看 到 余 差 向 量 r = b-Ax 与 A 的 列 空间 正 交 ， 即 
AT = 0。 用 b-Ax 代 替 r， 得 到 A'Ax = A 由 。AIA 是 对 称 正定 和 矩阵， 因此 它 的 逆 存 在 ， 于 是 解 出 
x = (A'A) A 中 。 有 几 个 通用 的 数值 算法 库 可 用 来 解决 这 个 问题 。( 对 于 MATLAB ,使 用 简单 
的 命令 x = A\b 就 行 。 一 旦 求 出 最 小 二 乘 解 x， 余 差 向 量 r 就 可 以 通过 r = b - AOR.) 请 参考 
Heath 1997 年 的 文献 ， 或 者 参考 你 所 用 的 线性 代数 算法 库 的 用 户 手册 。 

图 13-18 是 利用 图 13-15 中 的 标定 物 进行 摄像 机 标定 的 结果 。 标 定 物 的 角 点 用 字母 “A” ~ 
“P” 标 注 ， 它 们 的 实际 坐标 [X, Y, ZJ] 是 已 知 的 ， 列 在 图 13-18 中 图 像 坐 标 [U, V] 的 右 侧 。 在 现 
在 的 视点 位 置 下 ， 角 点 “B”、“C”、“M” 是 被 遮挡 住 的 ， 所 以 没有 与 它们 对 应 的 图 像 点 坐标 。 
通过 其 余 13 个 对 应 点 的 拟 合 ， 求 出 摄像 机 矩阵 : 摄像 机 矩阵 位 于 图 13-18 的 下 部 ， 余 差 列 在 
图 13-18 的 右 侧 。 在 利用 摄像 机 矩阵 求 出 的 26 个 坐标 之 中 ， 有 16 个 坐标 值 的 误差 在 一 个 像素 
之 内 ， 另 10 个 坐标 值 的 误差 大 于 一 个 像素 ， 不 过 只 有 2 个 坐标 值 的 误差 超过 两 个 像素 。 这 个 
例子 说 明了 仿 射 摄像 机 模型 的 有 效 性 ， 但 也 显示 出 由 于 角 点 位 置 和 短 焦距 透镜 所 引起 的 误 
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利用 对 称 性 确定 其 他 点 
(0.6.0) M E aegis 
"Zz 
Y, 
A (11,0,0) 
-y 
(2.75,0, —1.8125)) P 


(5.5,0,=35) 


F E 
(2.75,0, —4.5)  (8.25,0, —4.5) 





图 13-15 具有 多 个 角 点 的 精确 标定 物 ， 标 定 物 长 1lin.， 宽 6in.， 高 4.5in.。 
在 图 13-18 中 给 出 了 所 有 3D 角 点 的 坐标 






a 


Ax =b’ 





图 13-16 PAE, SEM (Zù ” ”图 13-17 系统 Ax = DAV ORR. PHARE 
点 ) 的 坐标 与 通过 公式 (13-14) 中 的 摄像 阵 Az, .的 11 维 列 空间 。 全 部 线性 组 合 A， 

机 和 矩阵 算出 的 点 〈 实 心 点 ) 坐标 之 间 的 差 都 在 该 空间 内 ， 但 B,, .不 在 该 空间 内 。 

最 小 二 乘法 计算 b'，b' 就 是 b 到 这 11 维 空 

间 的 投影 ，b 是 该 空间 中 与 b 最 接近 的 点 





(a) 查找 最 小 二 乘 拟 合 的 软件 。 输 入 图 13-18 中 的 对 应 点 ， 计 算 摄像 机 矩阵 ， 并 与 图 13-18 
中 的 矩阵 做 比较 。(b) 去 掉 余 差 最 大 的 3 个 点 ， 再 求 一 次 摄像 机 矩阵 。 有 没有 新 的 余 差 大 于 2 
MAR? (c) 定义 1 x 1 x 1 立方 体 的 3D 坐 标 , 把 它 放 在 图 13-15 中 的 标定 物 上 部 的 一 个 平面 上 。 
利用 已 有 的 摄像 机 矩阵 ， 求 立方 体 的 8 个 角 点 所 对 应 的 图 像 坐 标 ， 同 时 对 接触 面 上 标定 物 的 四 
个 角 点 也 进行 类 似 的 计算 。 画 出 得 到 的 图 像 点 ， 并 画 出 相连 的 边线 。 得 出 的 图 像 看 起 来 是 立 
方 体 吗 ? 





参考 图 13-14， 利 用 第 3 章 的 方法 ， 可 以 以 亚 像素 的 精度 计算 销 子 的 中 心 。 怎 么 计算 ? 能 


434 
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对 [PP 用 非 整数 坐标 做 为 标定 数据 吗 ? 怎样 进行 ? 


9 18 最 佳 弱 透 视 摄像 机 模型 

对 图 13-18 中 左 侧 的 数据 进行 拟 合 ， 求 最 佳 弱 透视 摄像 机 矩阵 。 认 真 复习 简化 成 像 方程 的 
推导 过 程 ， 推 导出 新 的 系统 方程 Ax = b。 得 到 最 佳 摄像 机 矩阵 参数 之 后 ， 将 余 差 与 图 13-18 中 
右 侧 的 余 差 做 比较 。 





IMAGE: glviewl.ras 


输入 数据 


2D 图 像 点 (U, V) 3D 坐 标点 (X, Y, Z) 2D 拟 合 数据 X 和 Y 的 余 差 


-00 336. .00 94.53) 78378 OVA. -1.89 
.00 
-00 
-00 
+25 
ray AS 
.50 
.00 
.00 
.00 
.00 
.00 
.00 
-00 
125 
<19 


rR 
Ppoo 


HONNO 


He 
OOoOonmnoooanaooooaao 
ja I WE WD EW eee 


N o ODN ND 


摄像 机 矩阵 
44.84 29.80 -5.504 94.53 
2.518 42.24 40.79 337.9 
-0.0006832 0.06489 -0.01027 1.000 
图 13-18 利用 图 13-15 所 示 的 标定 物 进 行 
表 13-2 中 显示 的 是 ， 图 13-15 中 标定 物 的 16 个 3D 角 点 所 对 应 的 图 像 点 。 实 际 上 ， 像 点 坐标 来 
自 两 幅 图 像 。 采 用 仿 射 标定 方法 ， 根 据 表 中 的 2-6 列 数据 ， 用 5 组 标定 数据 对 计算 摄像 机 矩阵 。 
表 13-2 使 用 两 台 摄像 机 得 到 的 标定 物 图 像 的 3D 特 征 点 





摄像 机 标定 的 结果 








Point x Yy “z ‘u iy ĉu 2y 
A 0.0 0.0 0.0 167 65 274 168 
B 0.0 6.0 0.0 96 127 196 42 
Cc 11.0 6.0 0.0 97 545 96 431 
D 11.0 0.0 0.0 171 517 154 577 
E 8.25 0.0 -4.5 352 406 366 488 
F 2:15 0.0 -4.5 347 186 430 291 
G 3.5 0.0 =3.5 311 294 358 387 
H 5.5 6.0 =3.5 226 337 NA NA 
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( 续 ) 

Point "x Yy my, lu lv 加 2y 

I 0.0 0.0 =0:75 198 65 303 169 
J 11.0 0.0 —0.75 203 518 186 577 
K 2.0 0.0 0.0 170 143 248 248 
L 2.0 6.0 0.0 96 198 176 116 
M 9.0 6.0 0.0 97 465 114 363 
N 9.0 0.0 0.0 173 432 176 507 
O 8.25 0.0 -1.81 245 403 259 482 
P 2.75 0.0 一 上 当天 242 181 318 283 





3D 实 际 坐标 "X、"y、"”z 的 单位 为 英寸 。 图 像 1 的 坐标 是 u、!v， 单 位 是 行 和 列 。 图 像 2 的 坐标 是 得 、?v。 


习题 13.20 立体 视觉 计算 

(a) 用 表 13-2 中 的 数据 ,计算 两 个 标定 矩阵 ,一 个 利用 第 2-6 列 的 数据 ， 另 一 个 利用 第 2-4、 
7-8 列 的 数据 。(b) 利用 第 13.3.3 节 的 方法 ， 计 算 点 A 的 3D 坐 标 ， 只 用 两 个 摄像 机 矩阵 和 表 中 
5-8 列 的 图 像 坐标 。 把 你 得 到 的 结果 与 表 中 2-4 列 的 数据 做 比较 。(c) 考虑 标定 物 角 点 I 与 P 之 间 
的 钝 角 角 点 ， 用 Q 表 示 。 假 设 点 Q 的 像 点 分 别 是 [196, 135] 和 [281, 237]。 用 立体 视觉 的 方法 计 
算 点 Q 的 3D 坐 标 ， 并 证 明 你 的 结果 是 合理 的 。 
13.4.3 仿 射 方法 讨论 

主要 问题 在 于 是 否 真 的 需要 估计 摄像 机 模型 中 的 11 个 参数 。 我 们 已 经 看 到 ， 在 确定 世界 坐 
标 系 下 的 摄像 机 位 次 时， 只 有 3 个 独立 的 旋转 参数 和 3 个 独立 的 平移 参数 。 从 实际 图 像 坐标 到 
以 行列 像素 为 单位 的 变换 需要 2 个 比例 因子 ， 以 及 焦距 f， 所 以 这 11 个 参数 并 不 都 是 独立 参数 。 
把 它们 作为 独立 参数 对 待 ， 意 味 着 旋转 参数 所 确定 的 旋转 矩阵 不 是 正 交 的 。 对 于 精确 调整 好 
的 摄像 机 ， 我 们 没 必要 用 这 么 多 的 约束 条 件 。 但 对 于 图 像 平 面 与 光 轴 不 垂直 的 情况 ， 用 较 多 
的 参数 可 以 使 模型 更 准确 。 为 了 估计 比较 多 的 自由 参数 ， 需 要 比较 多 的 标定 点 。 这 些 参数 也 
不 能 明确 反映 摄像 机 的 本 质 特 征 。 但 是 仿 射 模型 方法 具有 自身 的 优势 。 在 图 像 行 列 不 够 垂直 
或 者 图 像 平 面 与 光 轴 之 间 不 够 垂直 的 情况 下 ， 仿 射 模型 仍然 能 够 使 用 。 不 管 是 像素 坐标 还 是 
实际 图 像 坐 标 ， 都 能 够 采用 仿 射 模型 ， 而 且 求 解 过 程 不 需要 迭代 ， 可 以 很 快 算出 结果 。 在 13.7 
节 ， 我 们 将 介绍 另 一 种 标定 方法 ， 采 用 了 更 多 的 约束 条 件 ， 能 够 克服 上 面 所 提 到 的 问题 。 


习题 13.21 标定 相机 


如 采 你 没有 相机 ， 借 一 台 或 者 买 一 台 便宜 的 。 找 个 硬 盒子 做 标定 物 ， 在 每 个 面 上 画 上 几 
个 “X 。RH 坐 标 系 的 原点 位 于 盒子 的 一 个 角 点 处 ， 三 个 坐标 轴 就 是 盒子 的 三 条 边 。 测 量 出 盒 
子 所 有 角 点 的 坐标 ， 以 及 相对 RH 坐标 系 “X” 处 的 坐标 。 给 盒子 拍 一 张 图 片 ， 在 图 片 中 找 出 
15 个 角 点 和 “X” 点 。 用 尺子 量 出 这 些 点 在 图 像 中 的 坐标 ,单位 为 英寸 。 模 仿 本 节 所 举 的 例子 ， 
求 出 摄像 机 矩阵 和 余 差 ， 对 结果 进行 总 结 。 对 于 标定 中 没有 用 到 的 那些 点 ， 用 摄像 机 矩阵 算 
出 它们 的 3D 坐 标 ， 看 看 结果 如 何 。 然 后 图 像 坐 标 改 用 mm 为 单位 ， 再 计算 一 次 。 


还 是 前 面 实验 中 用 到 的 盒子 ， 进 行 纹理 映射 。(a) 首先 ， 和 上 面 一 样 得 到 一 幅 盒子 
的 .pgm 格 式 图 片 。(b) 用 第 11 章 介绍 的 方法 ， 建 立 从 盒子 的 一 面 (用 2D 坐 标 ) 到 包含 你 的 照 
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片 的 图 像 阵列 的 映射 。(c) 通过 写 入 照片 的 像素 值 来 更 新 盒子 的 .pgm 图 像 文 件 。 提 示 : 对 三 
角形 进行 映射 比 对 平行 四 边 形 进行 映射 的 效果 要 好 ， 为 什么 ? 
13.5 使 用 结构 光 

在 第 一 节 中 ， 我 们 提出 了 用 结构 光 (structured light) 进行 测量 ， 图 13-4 是 关于 结构 光 的 
示意 图 。 现 在 我 们 具备 了 实现 结构 光 的 所 有 数学 工具 。 图 13-19 详 细 显 示 了 结构 光 的 工作 原理 。 
物体 表面 的 光照 模式 是 ， 一 幻灯 投影 仪 把 规则 的 栅 格 光线 投射 到 表面 上 。 然 后 用 摄像 机 拍摄 
光栅 覆盖 的 表面 ， 效 果 与 表面 结构 和 表面 位 姿 有 关 。 由 于 光栅 高 度 结构 化 ， 关 于 哪 一 些 投影 
线 产生 了 交叉 点 ， 成 像 系 统 具 有 明确 的 信息 。 假 设 某 个 时 刻 成 像 系 统 知道 棚 格 交叉 点 5P,, 的 像 
点 是 'P,,。 然 后 为 了 求 出 由 特殊 光照 模式 照明 的 3D 表 面 点 "P,,， 就 产生 4 个 可 用 的 线性 方程 。 
我 们 必须 知道 摄像 机 标定 矩阵 C 和 投影 仪 标 定 矩 阵 D。 系 统 的 解 D"P,, = 5Pj, 和 C*P,, = 中 ,与 
13.3.3 节 给 出 的 双 摄 像 机体 视 的 情况 一 样 。 

标定 投影 仪 与 标定 摄像 机 方法 很 相似 。 打 开 投 影 仪 ， 照 射 工作 台 平 面 。 标 定 物 放 在 桌面 
上 ,让 它 的 一 个 角 正好 与 投射 的 一 个 光 机 交叉 点 重合 。 得 到 一 组 标定 数据 对 <[5P,, 5P,], YP, 
"Po “PJ]>， 其 中 5P,/、5P, 等 于 产生 交叉 点 的 栅 格 线 的 序数 ( 整数)，”P,, YP, "P. 是 标定 物 角 点 
的 世界 坐标 。 如 果 用 仿 射 标定 方法 ， 可 以 把 幻灯 栅 格 线 的 顺序 简化 为 m = 1, 2,….， 或 者 ! = 1, 

[437] 2, …， 因 为 仿 射 标定 方法 适合 任何 比例 系数 。 
栅 格 点 


i 
光 投 影 仪 lm CP 图 像 点 
l IP, 
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图 13-19 左边 的 马 铃 昔 被 带 栅 格 的 幻灯 照射 ， 右 边 是 结构 光 原 理 图 。 如 果 成 像 系 统 
能 够 知道 由 哪 条 光线 %P,, 产 生 了 图 像 特征 点 'P,,， 那 么 就 得 到 求 表面 点 "P, 
的 四 个 方程 。 摄 像 机 矩阵 和 投影 仪 矩 阵 都 要 已 知 
算法 13.2 利用 条 纹 光 以 及 标定 过 的 摄像 机 和 投影 仪 计算 3D 表 面 坐标 
离线 程序 : 
1. 标定 摄像 机 ， 得 到 摄像 机 矩阵 C。 
2. 标定 投影 仪 ， 得 到 投影 仪 算 阵 D。 
在 线程 序 : 
1. 输入 摄像 机 矩阵 C 和 投影 仪 矩阵 D。 
2. 输入 场景 的 条 纹 光 表 面 图 像 。 
3. 抽取 出 亮 线 栅 格 及 交叉 点 。 
4. 确定 所 有 栅 格 交叉 点 的 标号 !、m。 
5. 对 每 个 像 点 P, 的 投射 点 P,,， 用 C、D 和 体 视 公式 计算 3D 表 面 点 P。 
6. 输出 网 格 图 ， 格 点 表示 3D 点 ， 亮 条 纹 表示 它们 之 间 的 连 线 。 
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按 下 列 方式 生成 结构 光 并 标定 结构 光 投影 仪 。 采 用 你 最 熟悉 的 图 像 编 辑 工具 ， 制 作 一 幅 数 
字 栅 格 图 像 ， 背 景 为 黑色 。 或 者 在 纸 上 画 出 栅 格 ， 用 扫描 仪 扫 成 一 幅 数字 图 像 。 把 便携 式 电 脑 
与 投影 仪 相 连 ， 显 示 出 你 做 的 数字 图 像 。 这 样 就 把 栅 格 投射 到 了 3D 空 间 中 。 调 整 BOIL, fii 
它 照 向 桌面 工作 区 。 把 标定 物 放 到 桌子 上 ， 得 出 标定 点 ， 进 行 仿 射 标定 计算 。 写 出 总 结 报告 。 

这 种 方法 同样 存在 双 摄 像 机 立体 视觉 所 存在 的 问题 ， 尽 管 不 是 很 严重 。 再 看 看 关于 马 铃 
SAAIER ( 即 图 13-19)， 显 而 易 见 ， 在 成 像 系 统 确定 正确 的 栅 格 交叉 点 方面 存在 一 定 的 问题 。 
如 果 只 需要 表面 形状 而 不 需要 表面 位 置 ， 常 常 只 
要 求 栅 格 交 又 点 间 的 相对 位 置 保持 一 致 。 请 参考 
图 13-20, 以 及 Hu 和 Stockman、Shrikhande 和 
Stockman 于 1989 年 的 文献 。 工 程 上 已 经 实现 各 种 
各 样 的 解决 方案 ， 例 如 栅 格 线 可 以 采用 不 同 的 形 
状 和 颜色 。 另 一 种 解决 方案 是 ， 快 速 改变 栅 格 模 
式 ， 使 成 像 系统 得 到 多 幅 图 像 ， 从 这 些 图 像 可 以 
唯一 地 确定 栅 格 模式 。 白 光 投影 仪 的 景深 有 限 ， 
栅 格 模式 只 有 在 景深 范围 内 的 光线 才 是 清晰 的 。 
激光 投影 仪 则 不 受 这 一 限制 ， 但 某 些 物体 的 反射 
效果 不 好 ， 原 因 是 电压 低 以 及 一 般 激光 的 光谱 范 





图 13-20 通过 投射 栅 格 算出 的 表面 法 线 。 只 需 
知道 栅 格 线 的 顺序 ， 不 需 知道 栅 格 线 


国有 限 。 在 许多 受 控 环境 中 ， 结 构 光 传感器 使 用 的 准确 位 置 就 可 以 算出 法 线 (摄像 机 
起 来 非常 方便 。 从 一 些 公司 可 以 买 到 现成 的 传 感 和 投影 仪 都 用 弱 透 视 模型 】( 由 Shrik- 
器 设备 。 有 的 只 有 一 束 光 、 一 条 光 带 、 或 者 是 两 hande 和 Stockman,1989 提 供 ) 

条 正 交 光 带 。 


13.6 简单 的 位 姿 估 计 过 程 

我 们 要 借助 摄像 机 计算 目标 的 几何 形状 和 位 姿 。 这 一 节 我 们 学 习 一 种 简单 的 目标 位 姿 计 
算 方法 ， 只 根据 三 个 图 像 点 来 计算 。 假 设 目 标的 几何 模型 已 知 ， 摄 像 机 焦距 /已 知 。 之 所 以 要 
讨论 这 个 简单 方法 ， 是 因为 它 不 仅 给 出 一 种 实际 的 位 姿 估计 方法 ， 同 时 也 由 此 引出 一 些 重要 
的 概念 ; 一 个 是 逆 透 视 (inverse perspective)， 即 根据 2D 图 像 特 征 计算 3D 特 征 的 透视 变换 : 
男 一 个 是 用 最 优化 的 方法 ,计算 使 3D 目 标点 与 2D 图 像 点 相 匹 配 的 最 佳 参 数 集 。 为 了 简化 问题 ， 
假设 世界 坐标 系 与 摄像 机 坐标 系 重合 ， 这 样 就 可 以 省 去 点 表示 符 的 上 角 标 ， 因 为 这 时 不 用 需 
要 指明 坐标 系 ("P = P=P,)。 另 一 个 简化 是 ， 只 用 实际 空间 坐标 ， 不 用 图 像 量化 或 者 是 像 
素 坐 标 。 

= EAL PLE (P3P) 的 环境 参见 图 13-21。3D 场 景 中 的 三 点 P, 在 u-v 图 像 平面 上 的 对 应 点 
是 Q,。 点 P 的 华 标 是 我 们 要 求 的 未 知 数 。 假 设 我 们 知道 目标 模型 上 哪些 点 受到 关注 (这 是 大 假 
设 )， 也 确实 知道 这 些 点 两 两 之 间 的 距离 。 对 于 刚体 来 说 ， 这 些 距离 不 随 物体 在 空间 中 的 运动 
而 变化 。 在 人 机 交互 (HCI) 应 用 中 ， 点 P 也 许 是 某 个 人 的 面部 特征 ， 如 双眼 和 鼻尖 。 如 果 面 
部 特征 的 距离 合适 ， 就 能 够 检测 出 人 脸 。 算 出 人 脸 的 位 次 后 ， 就 能 够 确定 这 个 人 在 向 何 处 看 
在 导航 系统 中 ， 三 点 P, 也 许 是 地 图 上 位 置 已 知 的 地 理 标 记 。 导 航 机 器 人 或 者 无 人 驾驶 飞机 通 
过 下 述 方法 能 够 算出 自己 相对 标记 的 地 理 位 置 。 





439 
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图 13-21 位 姿 估 计 的 简单 情况 :3D 空间 边 长 已 知 的 三 角形 P,P,P;， 在 u-v 图 像 平面 对 应 三 角形 
Q102Q;3。 根 据 图 像 点 的 坐标 可 以 求 出 三 维 点 P 的 坐标 。 可 以 确定 包含 点 P 的 物体 相 
对 摄像 机 坐标 系 的 位 姿 。 焦 距 长 度 是 指 从 摄影 中 心 到 图 像 平 面 的 距离 。 图 像 上 的 点 
相对 摄像 机 坐标 系 C 的 坐标 为 @， = [u;, Vj» -月 
被 观测 点 8 的 图 像 位 置 是 已 知 的 。 设 q; 是 从 原点 沿 Q; 方 向 的 单位 向 量 。3D 点 Pj 也 在 同样 的 
方向 上 。 因 此 只 要 算出 三 个 系数 a;， 根 据 下 列 公式 就 可 以 从 Qi 求 出 P 的 位 置 
P; = aiq; (13-36) 
利用 公式 (13-36) 中 的 三 个 方程 ， 可 以 推出 三 个 点 之 间 的 距离 公式 ， 这 三 个 距离 根据 目 
标 模 型 也 是 可 知 的 。 
dmn = || Pm — Pall (m #n) (13-37) 


根据 观测 值 2, 求 已 ， 利 用 点 积 及 性 质 qioqi= 1 计算 3D 上 距离 。 


dmn” = lam qm 一 an Gull” 
= (amngm — ann) © (anqdm 一 anqa) (13-38 ) 
= An” 一 2aman (qm o Qn) + Gy? 


MEHAR FRAEN RG. AARIA dn RY LRA. RR 
点 Qi3 个 qm。qo 也 可 以 算出 。 计 算 3 个 点 P; 位 置 的 P3P 问 题 现在 变 成 是 求 这 3 个 二 次 方程 ， 其 中 
包含 3 个 未 知 量 。 理 论 上 有 8 个 不 同 的 三 元 组 [a,, a, as] 能 够 满足 方程 (13-38)。 参 考 图 13-21， 
很 容易 可 以 看 出 ， 对 于 在 坐标 系 一 边 的 3 个 点 位 置 对 应 参数 是 [a1, az a;]， 则 在 另 一 方 的 镜像 必 
然 有 另 一 组 参数 [-a1, -an -a3]。 如 果 [a1, a, as] 是 方程 组 的 解 ， 则 [-aj, -42, -as] 必 然 也 是 。 
我 们 最 多 只 有 4 组 表示 实际 位 置 的 实数 解 ， 因 为 目标 只 可 能 在 摄像 机 的 一 边 。 在 Fishler 和 
Bolles (1981) 的 文献 中 ， 特 殊 情 况 下 4 个 位 置 都 是 有 可 能 的 ， 但 一 般 情况 下 只 有 两 个 解 。 

现在 看 如 何 利用 非 线性 优化 求解 未 知 数 a;( 进 而 求 P,)。 在 后 面 的 章节 中 进一步 讨论 其 他 
优化 方法 。 数 学 上 ， 就 是 求 下 列 3 个 函数 中 的 a;。 


f(a), a, a3) = ay” — 2a1a2(q1 0 Q2) + a? — d? 
8(41, a, 43) = ar” — 2am (q2 0 q3) + a3? — dz? (13-39) 


h(a, a, a3) = ay? — 2a1a3(q1 0 q3) + a3? — di3? 
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假设 初始 值 在 [ai， >, a3] 附 近 ， 但 是 fa， ay, a3) 0。 我 们 想 算出 一 个 增 量 [A,， A, Aj]， 理 想 
情况 下 使 Ka +A, a+ A, a+ A;3) = 0， 实 际 上 是 趋 近 于 0。 在 [a, a, a] 的 邻 域 对 /进行 线性 化 ， 
然后 计算 使 结果 为 零 的 增 量 [Al, A, Ag]. 

Le EA z +h.o.t. (13-40) 


A, 
A 
da, da, da, "y 








fat Anat ha tA)= forose)+| 
忽略 公式 (13-40) 中 的 高 阶 项 ， 并 让 左边 等 于 0， 就 得 到 一 个 包含 未 知 数 [A1, A, AHI 
性 方程 。 同 样 道理 ， 得 出 函数 形式 为 g 和 和 /7 的 两 个 方程 。 于 是 有 下 列 和 矩阵 方程 : 


ae s a 
olal Faresa hi 9 fA 
0 |=| g(a1, a, a3) |+ fe os ae A2 die 
0 A(@1,42,43)) | 5, an an | LAB 


da, daz 0a3 


上 面 的 偏 微分 和 矩阵 就 是 雅 可 比 矩 阵 J。 如 果 在 点 [ai, an a3] 处 它 是 可 逆 的 ， 那 么 就 可 以 求 得 
如 下 的 参数 增 量 : 


h(ai, a2, a3) 


iA kP AE. ARAB BCR. ERAR 
法 表达 形式 。f 表 示 用 函数 {/、g、h 算 出 的 值 向 量 。 
A*t! = ak — J-1(A*)f(A*) (13-43) 















证 明 函 数 f(a， a, a3) 的 雅 可 比 矩 阵 具 有 如 下 形式 ， tort, AA BIg, ca 


Jun J2 J3 
J(a1, 42,43) = | Ji Jn J3 
Ji Jz J3 

= 0 (2a — 2ħ3a3) (2a3 — 2ħ3a2) 


(2aı — 2ti2a2) (2a 一 202a1) 0 
(2a; — 2t31a3) 0 (2a3 一 26101) 





H1S.25) 计算 牙 可 比 的 刘 

在 上 个 习题 中 ， 求 雅 可 比 的 逆 逢 阵 本 '， 用 表示 。 

算法 13.3 对 摄像 机 坐标 系 下 三 个 3D 点 坐标 位 置 的 计算 方法 进行 了 总 结 。 实 验证 明 ， 一 般 
情况 下 5 到 10 次 迭代 后 算法 就 会 收敛 。 但 是 还 不 清楚 如 何 对 算法 进行 控制 ， 以 获得 多 个 解 。 非 
线性 优化 有 时 需要 一 定 的 技巧 ， 读 者 应 通过 阅读 参考 文献 体会 其 中 的 细微 差别 。 表 13-3 列 出 
了 P3P 求 解 选 代 过 程 中 的 性 能 指标 变化 情况 。 仿 真实 验 中 用 焦距 /= 30 的 透镜 对 已 进行 投影 ， 
得 到 图 像 坐 标 Q,。 初 始 值 的 设置 离 实 际 值 很 远 。 经 过 几 步 迭代 ， 算 法 很 快 收敛 到 实际 值 邻 域 
内 ， 并 且 最 后 算出 的 P 与 给 定 值 非常 接近 ， 精 确 到 小 数 点 后 两 位 十 进 制 有 效 数字 。 如 表 13-3 中 


Al f(a, a, a3) 
A2 | =—J7'(a1, a, a3)| g(a1, a2, a3) (13-42) ` 
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的 3-5 列 所 示 ， 经 过 9 步 挝 代 后 ， 模 型 边 长 和 计算 边 长 之 差 小 于 0.2 个 单位 长 度 。 如 果 初 始 值 选 
为 ai = 100， 揭 代 次 数 将 减 半 。 如 果 目 标 到 摄像 机 的 近似 距离 已 知 ， 那 么 这 时 的 参数 就 是 比较 
好 的 初始 值 。 





算法 13.3 ”根据 三 个 图 像 点 用 P3P 迭 代 求 解法 计算 3D 点 的 位 置 
输入 三 组 3D 和 2D 的 对 应 点 对 CP;, “Q;)。*P; 是 模型 坐标 ，"Q, 是 实际 图 像 坐标 。 
输入 摄像 机 焦距 和 距离 允许 误差 A。 
输出 三 个 模型 点 在 摄像 机 坐标 系 中 的 位 置 “P,。 
1. 初始 化 
(a) 根据 模型 点 "P,; 坐 标 计算 距离 的 平方 dv 
(b) 根据 图 像 点 "Q ,坐标 计算 单位 向 量 q 和 点 积 2qwoq， 
(c) 选择 初始 参数 向 量 AI = [a ay, a] (怎么 选择 ? ) 
2. i&4t, HFA" = 0 
(a) AMT = A‘ - F'(A} f(A» 
i. A“= AEH 
ii. WRI, IAJ An 
iii RECA) = [flai, a5, a3), glai, a, a5), h(at, a, a9] 
(b) RRA DEOR, SEE IE; 
BOP IA BK RRR, ME. 
3. AME. HA ET REPT, = aqi 


表 13-3 P3P 求 解法 的 迭代 情况 
































It. k ASI lg(49| In(A5I a, ay ay; 

1 6.43e + 03 3.60e + 03 1.09e + 04 1.63e + 02 1.65e + 02 1.63e + 02 
2 1.46e + 03 8.22e + 02 2.48e + 03 1.06e + 02 1.08e + 02 1.04e + 02 
3 2.53e + 02 1.5le + 02 4.44e + 02 8.19e +01 9.64e + Ol 1.03e + 02 
8 2.68e + 00 6.45e — 01 5.78e + 00 8.414e + 01 9.127e + 01 8.926e + 0I 
9 5.00e ~- 02 3.87e — 02 1.7le - 01 8.414e + 01 9.12 6e + Ol 8.925e + 01 
It. k Pix Piy P, Px Py Pa Px Py, Ps, 

1 一 36.9 一 58.4 147.6 一 34.4 ~14.4 160.7 0.0 -14.5 162.4 
2 -24.0 — 38.0 96.0 -22.5 -9.3 105.2 0.0 -9.3 103.6 
8 ~19.1 -30.2 76.2 -19.1 -7.9 88.9 0.0 -7.9 88.9 
9 一 19.1 -30.2 76.2 -19.1 一 7.9 88.9 0.0 一 7.9 88.9 





TE: 焦距 f = 30， 仿 真实 验 中 图 像 点 2 根据 P = [-19.05, -30.16, 76.20], P,= [-19.05, -7.94, 88.90] AIP, = 
[0.00, ~7.94, 88.90] 算 出 。 初 始 值 设 为 A" = [300, 300, 300], A = 0.2。 到 第 9 次 迭代 P3P 程 序 收敛 到 给 定 的 
已 值 ， 精 确 到 小 数 点 后 两 位 十 进 制 有 效 数 字 。 


Ohmura A (1988) 开发 了 一 个 系统 ， 能 够 以 每 秒 10 次 的 速度 计算 人 头 的 位 置 。 蓝 色 模 
型 特征 点 P, 取 左 眼 左 角 、 右 眼 右 角 和 鼻子 下 面 。( 面部 表情 的 变化 对 这 些 点 影响 不 大 。) 由 于 
做 了 蓝 色 标记 ， 因 此 能 够 迅速 找到 对 应 的 图 像 点 rQ,， 结 果 也 很 稳定 。 利 用 算出 的 cP, 以 及 MP， 
到 下 的 映射 ， 可 以 求 出 人 脸 的 位 姿 (用 算法 13.1)。Ballard 和 Stockman (1995) 开发 的 系统 ， 
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在 人 脸 上 不 做 任何 标记 就 能 确定 人 眼 和 鼻子 的 位 置 ， 但 速度 要 慢 得 多 ， 因 为 要 进行 人 眼 和 鼻 
子 的 识别 。 两 个 研究 组 都 声明 ， 求 得 的 三 点 所 构成 的 平面 ， 其 法 向 量 的 方向 误差 数量 级 为 几 
度 。 如 果 三 点 "了 所 在 的 平面 与 图 像 平 面 近似 垂直 ， 则 图 像 点 坐标 ?5Q 有 一 个 小 误差 就 会 在 计算 
3D 平 面 方向 中 带 来 很 大 的 误差 。 为 了 避免 这 种 情况 ，Ohmura 等 人 (1988) 安排 摄像 机 轴线 与 
人 脸 方 向 大 约 成 20" 夹 角 。 

方程 (13-38) 总 存在 一 个 解 ， 因 此 我 们 能 够 根据 青蛙 图 像 上 的 三 点 算出 飞机 的 位 姿 来 ! 
选择 一 个 好 的 模型 很 重要 ， 知 道 飞 机 不 是 绿色 的 或 者 没有 飞机 存在 就 有 帮助 。 模 型 验证 同样 
重要 ， 可 以 通过 在 目标 模型 上 选择 更 多 的 点 并 在 图 像 上 进行 验证 。 举 个 例子 来 说 ， 为 了 区 别 
一 张 脸 的 两 个 不 同位 姿 ， 可 以 在 利用 人 眼 和 鼻子 计算 出 位 姿 之 后 ， 再 找 出 耳 杀 、 下 巴 和 眉毛 。 
下 一 节 将 对 验证 问题 讨论 的 更 多 一 些 ， 也 要 考虑 以 像素 坐标 为 单位 的 数字 图 像 点 ， 以 及 透视 
投影 中 的 摄像 机 径 向 畸变 。 






讨论 如 何 用 P3P 方 法 解决 P5P 问 题 。 


WP3P 问题 *# 


想 办 法 找到 Huttenlocher 和 Ullman 于 1988 年 发 表 的 论文 ， 其 中 介绍 了 一 种 计算 3 点 刚体 位 
姿 的 方法 ， 用 的 是 一 个 弱 透 视 投影 模型 。 这 个 解法 是 封闭 形式 的 ， 能 够 明显 产生 两 个 解 ， 这 
一 点 与 本 章 的 P3P 求 法 不 同 。 对 该 解法 进行 编程 ， 然 后 通过 仿真 实验 进行 测试 。 利 用 数学 方法 
投影 刚体 上 的 3 点 得 到 实验 用 的 数据 ， 生 成 3 对 对 应 点 <P, Q> 
13.7 改进 的 摄像 机 标定 法 * 

我 们 现在 讨论 Roger Tsai (1987) 提出 的 标定 方法 ,该 方法 已 经 被 广泛 用 于 工业 视觉 系统 。 
据 称 如 果 算 法 用 的 好 的 话 ， 进 行 3D 测 量 的 精度 达到 1/4000， 这 是 个 非常 好 的 效果 。 在 第 13.3 
节 已 经 对 标定 思想 进行 了 详细 讨论 ， 我 们 再 讨论 时 就 采用 简化 的 表示 符号 。 
。P=[x, y, z] 表 示 3D 坐 标 系统 的 一 个 点 。 
* P=[u, v] 是 实际 图 像 平 面 上 的 一 点 。( 可 以 把 4 轴 看 成 是 水 平 轴 , 方向 向 右 ; v 轴 是 垂直 轴 ， 
方向 向 上 。) 
“a = [7r,，c] 是 用 整数 表示 的 图 像 阵列 中 的 一 个 像素 ，r 是 像素 的 行 坐标 ，c 是 像素 的 列 坐 
标 。( 约 定 俗 成 ， 和 上 面 的 、v 相 对 应 ，r 轴 是 垂直 轴 ， 方向 向 下 。c 轴 是 水 平 轴 ， 方向 
向 右 。) 
摄像 机 标定 被 看 作 是 参数 估计 ， 我 们 求 的 是 表征 摄像 机 几何 结构 和 位 姿 的 摄像 机 参数 
(camera parameter), ， 有 两 类 不 同 的 参数 需要 进行 估计 ; 

1. 内 部 参数 

2. 外 部 参数 
13.7.1 摄像 机 内 部 参数 

内 部 参数 (intrinsic parameter) 是 指 真正 的 摄像 机 参数 ， 与 所 用 的 光学 部 件 有 关 ， 包 括 如 
下 参数 : 

* 主 点 [uo, vo]， 光 轴 与 图 像 平面 的 交 双 点。 

“比例 因子 {d., d,}， 与 像素 x 和 y 的 尺寸 有 关 。 
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“EBA, SERIE RAMA. 

。 焦 距 f， 光 心 到 图 像 平面 的 距离 。 

“摄像 机 畸变 因子 ( ki )， 与 摄像 机 径 向 畸变 有 关 的 比例 因子 。 

这 些 定义 以 摄像 机 透镜 的 光 心 为 参考 点 ， 摄 像 机 坐标 系 的 原点 就 在 这 一 点 。 光 轴 通 过 光 
心 与 图 像 平 面 垂直 。 主 点 经 常 是 图 像 的 中 心 ， 但 有 时 不 是 。 比例 因子 d. 和 d, 表 示 单 个 像素 的 水 
平 尺 寸 和 垂直 尺寸 ， 单 位 是 实际 长 度 单位 如 mm。 对 于 特定 的 摄像 机 ， 假 设 w。、v。、d,.、d, 和 变 
形 因子 t 都 是 已 知 的 ， 那 么 只 有 焦距 和 摄像 机 畸变 因子 Kk 要 通过 标定 算出 。 

13.7.2 摄像 机 外 部 参数 

外 部 参数 (extrinsic parameter) 描述 摄像 机 在 3D 世 界 坐 标 系 下 的 位 置 和 方向 (位 姿 )， 其 

中 包括 : 


“hee t=[t t r 
ER (13-44) 
。 旋 转 : 
ri m2 113 0 
_|ra m m 0 
~ 1 7r31 rz r3 0 CESAS) 
0 0 0 1 


平移 参数 描述 了 摄像 机 在 世界 坐标 系 下 的 位 置 ， 旋 转 参数 描述 了 摄像 机 的 姿态 。 一 开始 我 们 
就 强调 只 有 3 个 独立 的 旋转 参数 而 不 是 9 个 。 

下 面 要 介绍 的 是 主动 的 、 有 合适 精度 的 、 TAR a ola sieteld B 
然 用 这 种 方法 并 不 能 为 某 个 特定 的 透镜 建立 出 完美 的 模 2 a 
型 ， 但 这 种 方法 可 用 于 现 用 的 任何 摄像 机 和 和 镜头。 图 13- 
22 显 示 的 是 一 种 标定 装置 , 它 也 可 用 于 3D 目 标 重建 系统 ， 
后 面 将 讨论 这 种 系统 。 该 装置 有 一 个 金属 盘 ， 上 面 涂 着 
7x7 的 黑色 小 圆 阵列 。 圆 圈 的 中 心 表示 点 的 位 置 。 标 定 
物 安装 在 水 平 导轨 上 。 标 定 物 与 水 平 导轨 垂直 ， 并 能 够 
沿 导轨 运动 ， 每 步 间 隔 10mm。 导 轨 上 的 位 置 决 定 了 3D 
世界 坐标 系 的 坐标 。 

在 图 13-22 所 示 的 系统 中 ， 沿 导轨 的 不 同位 置 拍摄 几 
幅 图 像 ， 这 些 不 同位 置 对 应 着 到 摄像 机 的 不 同 距离 。 在 
标定 摄像 机 过 程 中 ， 摄 像 机 本 身 不 动 ， 并 且 焦 距 不 变 。 
对 于 每 幅 图 像 ， 检测 出 圆圈 ， 并 算出 中 心 点 。 图 像 处 理 图 13-22 通过 2D 运 动 模式 生成 多 个 3D 
的 结果 是 3D 已 知 点 和 2D 图 像 点 间 的 对 应 点 集 。 要 求 对 空间 特征 点 的 标定 装置 
应 点 的 组 数 z>5， 我 们 把 它们 表示 为 

{C(x Ya Zi], [us viDli = 1, ... , n} 
利用 下 面 的 公式 能 够 由 图 像 像素 坐标 [r， rT am v]: 
u = Tid; (c — ug) (13-46) 
v = —dy(r — vo) (13-47) 


其 中 性 和 4 是 水 平 及 垂直 方向 相 邻 两 像素 中 心 之 间 的 距离 ，z 是 摄像 机 图 像 变形 因子 。 
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图 13-23 显 示 的 是 该 方法 所 用 的 成 像 几 何 模型 。P =[x yo z] 是 3D 空 间 的 任意 点 ， 在 图 像 


平面 上 与 之 对 应 的 点 是 pi;。 向 量 r; 从 光 轴 上 的 点 [0, 0, 摄像 机 原点 
zj] 到 3D 点 也 。 向 量 si 从 主 点 po 到 图 像 点 Pi。 向 量 $s; 和 0, 







向 量 rt 平行 。 假 设 摄像 机 的 所 有 径 向 畸变 都 沿 着 向 量 
si 的 方向 产生 。 

Tsai 指 出 ， 第 一 阶段 先 计算 多 数 外 部 参数 ， 因 为 
径 向 畸变 沿 向 量 s; 的 方向 ， 不 用 考虑 s; 就 能 确定 旋转 
矩阵 。 另 外， 不 知道 就 能 确定 tL 和 t,。t. 的 计算 则 必 
须 等 到 第 二 阶段 进行 ， 因 为 {的 变化 会 产生 类 似 k 引 
起 的 图 像 效 应 。 

不 是 直接 求 出 所 有 的 未 知 数 ， 我 们 首先 求解 一 
组 参数 4， 从 这 组 参数 可 以 得 到 要 求 的 外 部 参数 。 已 


Oz 
“ah 图 像 平面 


知 n 组 对 应 点 [x Yp zi 和 [yu;, vj, i=1,.…, n, n>5. x z 
构造 矩阵 A ， 每 行为 a;: 图 13-23 Tsai 标 定 方法 的 几何 模型 。 图 像 上 
aj = [Vixi, Viyi, —uixi, —uiyi, Vi]. (13-48) 的 点 Pi= [u 中 对 应 着 标定 物 上 的 点 


P; =[x Ya 2]. 主 点 po= [wo, vo]。 径 


; = EL ate BE ske fy BE H 
设 4 = [AH My Up Ks] 是 需要 求 的 未 知 参 数 向 向 畸变 使 图 像 点 pi 沿 图 像 内 的 pp 


量 ， 其 中 旋转 参数 1,、ri2、r21 和 rs 与 平移 参数 1、 fy 方向 变化 
之 比 构成 4 的 各 个 元 素 。 
r 
| 一 T (13-49) 
m= = (13-50) 
u = P! (13-51) 
ty 
r22 
U4 = 5 (13-52) 
一 I 
Ms 一 n (13-53) 


设 向 量 b = [u ww,…, UE TARTAR ERRE Ru. RAAME CRAY, MEREN FE 
Au =b (13-54) (47 
能 解 出 未 知 的 参数 向 量 4。( 参 考 Johnson、Riess 和 Arnold (1989) 关于 求解 线性 系统 方程 的 内 
F.) 下 面 就 可 以 根据 /算出 旋转 参数 和 平移 参数 。 
1. 设 已 = 拓 +H+ 央 + 由。 计算 平移 参数 # 的 平方 
U — [U? — 4p 一 Na13) 1 


Z(H l4 一 H243)? 


1 . 
y=) 3, 2 if (ut + HZ) #0 (13-55) 
HL 十 By 


1 
u3 + u4 


ĖS 


if (p14 一 AM2H3) #0 











if (u3 + m4) #0 











A 
Oo 
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2. 设 4= (5)“〈 正 方 根 )， 然 后 根据 算出 的 A 值 计算 4 个 旋转 参数 和 平移 参数 #: 


ru = Hity (13-56) 

ri2 = H2by (13-57) 

ra = Usty (13-58) 

r22 = Maly (13-59) 

f = Msh (13-60) 

3. 为 了 确定 + 的 正确 正 负 号 ， 选 择 一 个 目标 点 P， 它 对 应 的 图 像 点 [u, v] 远 离 图 像 中 心 (为 

了 避免 数值 问题 )。 设 P = [x, y, z]， 然 后 计算 

Er =ryxtroyth (13-61) 

Ey = rux troy tty (13-62) 


这 就 好 像 把 算出 的 旋转 参数 做 为 点 P 的 坐标 + 和 y 的 系数 。 如 果 & 与 4 的 正 负 号 一 样 ，&, 与 v 
的 正 负 号 一 样 ， 那 么 的 正 负 号 就 正确 ， 否 则 就 要 变 号 。 
4. 其 余 的 旋转 参数 可 按 下 面 的 公式 计算 : 


rs = (1-7 =r)” (13-63) 

ra = (1-13, - rh)!” . (13-64) 
l—rf, rnr 

r3 = Lorh rara (13-65) 
1 — rar — r2 

ry = — 2 (13-66) 

r33 = (1 — r31ri3 — r32723) .7 (13-67) 


在 推导 这 些 公 式 时 ,用 到 了 旋转 矩阵 有 的 标准 正 交 约 束 条 件 。 由 于 方 根 运算 的 二 值 性 ，r、 
和 3 的 正 负 号 也 可 能 不 对 。 在 这 一 步 中 ， 如 果 下 式 
Fira + lilo 
的 符号 为 正 ， 那 六 的 符号 就 应 该 变 号 ， 这 样 才能 保证 旋转 矩阵 的 正 交 性 。 另 外 两 个 在 算出 焦 
距 之 后 再 进行 调整 。 
5. 现在 从 第 2 个 线性 系统 方程 计算 焦距 /和 平移 参数 上 。 首 先 构造 第 阵 A'， 它 的 行为 


al = (r21xi + r22yi + ty, vi) (13-68) 
接 下 来 构造 向 量 b' 
b'i = (r31X; + r32yi)Vi (13-69) 
解 下 面 线性 系统 方程 
Av=b (13-70) 


其 中 v=(f，1.)。 到 这 里 就 得 到 了 ft 的 估计 值 。 
6. 如 果 庆 0， 那 么 改变 ma ra P31. Tar. fRULAIE RAS o 这 样 就 保证 符合 右手 坐标 规划 。 
7. 7 和 jx 的 估计 值 用 来 计算 摄像 机 畸变 因子 上 ， 以 及 改善 ft. 的 值 。 这 里 用 简化 的 摄像 机 畸 
变 模 型 ， 实 际 图 像 坐标 [, 匀 根据 测量 值 按 下 列 公式 计算 : 
a= u(1 +r’) (13-71) 
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其 中 径 向 畸变 项 中 的 r 由 下 式 给 出 : 


337 


用 畸变 因子 修正 透视 投影 方程 ， 得 到 如 下 形式 的 非 线性 方程 : 





faa +r’) =f 


利用 非 线性 回归 法 求解 这 个 系统 ， 就 能 得 出 人 AK POLE» 


13.7.3 标定 举例 

通过 例子 看 看 如 何 进 行 摄像 机 标定 。 右 
表 中 的 5 组 对 应 点 是 标定 系统 的 输入 。 世 界 
坐标 系 和 uv 图 像 坐标 系 的 单位 用 的 都 是 
cm. 

图 13-24 显 示 了 这 5 组 标定 点 在 3D 坐 标 系 
中 的 位 置 ， 以 及 在 摄像 机 图 像 平 面 上 的 大 致 
位 置 。 摄 像 机 的 位 置 、 姿 态 和 焦距 都 是 未 知 
的 ， 要 把 这 些 参数 算出 来 。 图 13-25 显 示 的 
是 连续 u-v 坐 标 系 中 的 图 像 点 位 置 。 

利用 这 5 组 对 应 点 ， 公 式 (13-54) 中 的 


ô= +r?) (13-72) 
r = (u? +v)? (13-73) 
721Xi 十 r22yi 十 r232i + | -1 n 
r31Xi + r32yi +T332i + fz (13-74) 
x y; Z u; v 
1 0.00 5.00 0.00 -0.58 0.00 749 
2 10.00 7.50 0.00 1.73 1.00 
3 10.00 5.00 0.00 1.73 0.00 
4 5.00 10.00 0.00 0.00 1.00 
5 5.00 0.00 0.00 0.00 -1.00 
y 
P 
10 ef 
wo Pe 
po o? 450 


矩阵 A 和 向 量 b 如 下 : 

ViXi Vi Yi —UiXi TU yj Vi 
0.00 0.00 0.00 2.89 0.00 
10.00 7.50 —17.32 —12.99 1.00 
A= 0.00 0.00 —17.32 —8.66 0.00 
5.00 10.00 0.00 0.00 1.00 
—5.00 0.00 0.00 0.00 —1.00 

uj 

和 —0.58 

1.73 

b= | 1.73 

0.00 

0.00 

RAL =b, HT Bll ey 

Mi 

一 0.17 

0.00 

H= 0.00 

一 0.20 

0.87 


下 一 步 是 计算 已 ， 然 后 用 它 求 公式 
(13-55) 中 的 #7。 





PP 和 标点 Ps 








摄像 机 
Ci RAVE AAI) 


图 13-24 3D 坐 标点 和 对 应 的 2D 图 像 点 是 标定 程序 的 


输入 ， 标 定 程序 用 王 计 算 摄 像 机 参数 ， 包 括 
位 置 、 姿 态 和 焦距 


图 像 2 








40| |-4 -3 -2 —1, 
cm PIS 








[| 





8.0 cm 
图 13-25 _ u-v 坐 标 系 中 的 图 像 点 














了 32 RIZE 


U =u + utes t+ ui =0.07 
利用 公式 (13-55) 中 的 第 一 个 式 子 ， 得 到 
2 _ U- [U? — 4(ui pa — uaus)? ]' 


t = = 
> 2(114 一 W203) 





如 果 z 取 正方 根 5， 则 有 ry, = Hib, 三 一 0.87 


ra2 = uty = 0 
r= M3ty = 0 
122 = Hat; = —1.0 
tx = Msty = 4.33 
为 了 确定 4 的 正 负 号 ， 接 下 来 计算 和 6,， 用 的 对 应 点 是 P=(10.0，7.5，0.0) 和 点 p= 
(1.73，1.0)， 图 像 点 p, 远 离 图 像 中 心 。 


& =ryxtrpy+t,= €0.87)(10) + 0 + 4.33 = —4.37 


451 & =raxtroytt = 0 + (-1.0)(7.5) +5 = 一 2.5 
AAC ANS, SpE fish, MAEMBE, ERLE., FRA 
ty = —5 
ry) =0.87 
ry =0 
ro, =0 
ru = 1.0 
tx = 一 4.33 
继续 计算 其 余 的 旋转 参数 : 


2 2 \1/2 
ra = (1l—rj,-r},)  =0.5 
2 2\1/2 
r3 = (1-13) — rip) =0 
1 — re — rizr 
r31 = u e = 0.5 
T13 


2 
1— r21712 一 ri _ 


r32 = 0 


123 


r33 = (1 — rir — r3are3)!/2 =0.87 


经 检查 riirz + rizr2s 二 0， 其 符号 不 为 正 ， 因此 不 变 号 。 
现在 建立 第 二 个 线性 系统 方程 如 下 : 


rxXi trayi tty, vi 


0.00 0.00 
2.500 一 1.00 
A’= | 0.00 0.00 
5.00 一 1.00 


—5.00 1.00 


3D Rte 5 FARMER 
和 
(r31Xi + r32yi)vi 
0.0 
50 
b’ = 0.0 
2S 
—2.5 
求解 A'y =b' 得 到 向 量 v= [f, 2]. 
f==10 
E75 


因为 是 一 个 负数 ， 所 以 我 们 的 坐标 系 不 
是 右手 坐标 系 。 为 了 把 z 轴 正 过 来 , 要 改变 ri;、 
r3、T3a1、T32、f 和 ht. 的 正 负 号 。 最 后 结果 是 : 


0.87 0.00 —0.50 
R= | 0.00 —1.00 0.00 
-0.50 0.00 0.87 
All 
一 4.33 
T = | -5.00 
7.50 
以 及 /= 1 


由 于 所 举 的 例子 没有 考虑 畸变 ， 上 面 便 
是 标定 的 最 后 结果 。 图 13-26 从 两 个 不 同 的 视 
点 对 标定 结果 进行 显示 。 





conte 





证 明 例子 中 得 到 的 旋转 矩阵 R 是 标准 正 
交 的 。 


op 





习题 19. 29 利用 摄像 机 参数 / 

借助 欧 几 里 德 几何 原理 和 图 13-26a， 找 
出 点 P, 和 P; 在 图 像 平面 上 的 投影 。( 图 13-26a 
中 的 所 有 直线 都 是 共 面 的 )。 验 证 得 出 的 结 
果 和 例子 中 所 给 的 p,、p; 图 像 坐标 相同 。 


利用 摄像 机 参数 R 和 T 
例子 中 给 出 的 PI/ 和 P; 相 对 的 是 世界 坐标 
系 ， 求 它们 在 摄像 机 坐标 系 中 的 坐标 。 
“利用 欧 几 里 德 几 何 学 和 图 13-26a。 
* 利用 标定 得 到 的 摄像 机 参数 。 
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b) 透视 图 
图 13-26 摄像 机 和 图 像 平面 在 世界 坐标 系 下 的 两 个 视 
图 ， 例 子 中 利用 Tsai 的 标定 方法 (Habib 
Abi-Rached 提 供 ) 





D 
a 
too 
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13.8 位 姿 估 计 * 

在 工业 视觉 中 ， 特 别 是 机 器 人 导航 任务 中 ， 得 到 3D 目 标 在 工作 区 坐标 系 中 位 姿 是 非常 重 
要 的 。 由 于 摄像 机 在 工作 区 的 位 姿 可 以 通过 标定 算出 ， 问 题 就 变 成 要 确定 目标 相对 摄像 机 的 
位 姿 。 本 节 给 出 的 确定 目标 位 姿 的 方法 ， 其 精度 要 比 13.6 节 给 出 的 简单 方法 高 很 多 。 位 姿 计 
算 中 最 基本 的 和 最 常用 的 方法 是 点 对 应 方法 。 利 用 2D 和 3D 线 段 的 对 应 ，2D 椭 圆 和 3D 圆 的 对 
应 ， 以 及 结合 使 用 点 对 、 线 对 、 椭 圆 - 圆 对 的 内 容 ， 请 参考 Ji 等 人 (1998) 的 工作 。 

13.8.1 2D-3D 点 对 应 求 位 姿 

前 面 的 一 节 中 用 到 了 摄像 机 模型 ， 假 设 标定 过 的 摄像 机 的 内 外 参数 都 已 经 知道 了 。 根 据 
3D 目 标 模 型 和 2D 图 像 之 间 的 x 对 对 应 点 确定 目标 位 姿 ， 这 本 质 上 是 一 个 非 线 性 问题 。 估 计 位 
姿 参数 要 用 非 线性 的 的 方法 。 但 是 在 某 些 情况 下 ， 也 能 找到 近似 地 线性 解 。 

假设 [x, y, z] 是 目标 点 *P 在 模型 坐标 系 中 的 坐标 ， 物 体 坐 标 系 到 摄像 机 坐标 系 的 变换 关系 
为 wTr = {R, T}， 包 括 旋转 和 矩阵 了 和 平移 向 量 T = [f 4, 可。 然后 将 点 了 P 投 影 到 图 像 平面 上 ， 产 
AARC blu, v]， 其 中 


u= fle Fry + raz + t 
r31X + r32y + r332 + fz (13-75) 
和 
rax troaytro3azt+t 
v= fi! 22y + 723 y ， (13-76) 
r3iX + r32y + r332 + fz 





其 中 /是 摄像 机 的 焦距 ， 是 已 知 的 。 
根据 目标 模型 坐标 系 与 摄像 机 坐标 系 之 间 地 变换 关系 ， 能 够 得 到 目标 在 摄像 机 坐标 系 中 
的 位 姿 。 用 前 面 的 透视 成 像 模型 ， 在 下 列 形式 的 12 个 方程 中 包含 9 个 旋转 参数 和 3 个 平移 参数 。 





Bw=0 (13-77) 
其 中 
fu fy fz 0 0 0 ux Wy -uz f 0 -u 
0 0 0 fx fy fa -xl vy vz 0 f =v 
fx. fy. fz 0 0 0 -Wx -wy uz f 0 -u 
B=| 0 0 0 fx fy fr -wm wy -oz 0 f =v | (13-78) 
fxe fys fz 0 0 0 一 46X6 一 46X6 一 Mk6z6 f 0 一 x6 
0 O fxe fye jz6 —v6x6 —vsye —vsze 0 太一 WwW 
和 


w=( m2 m3 u mm fB ml pp 3 b bh k) (13-79) 
如 果 想 找到 独立 的 位 姿 参 数 ， 而 不 仅仅 求 出 模型 点 与 图 像 点 对 应 的 仿 射 变换 ， 就 要 对 R 的 
元 素 附 加 条 件 , 使 R 满 足 实际 旋转 矩阵 应 满足 的 所 有 条 件 。 特别 地 , 旋转 第 阵 应 是 标准 正 交 的 ， 
其 行 向 量 的 幅 值 应 等 于 1， 行 向 量 之 间 是 正 交 的 。 用 公式 表示 为 : 
IRI = ri trip try = 
(Roll =r +r +h =1 (13-80) 


2 
IR = ri +r +133 = l 
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和 RioR =0 
Rio R3 =0 (13-81) 
Ro R3 =0 


如 果 对 了 附加 上 这 些 条 件 后 ， 问 题 就 变 成 非 线 性 的 了 。 如 果 对 及 的 行 向 量 分 别 利用 幅 值 约 
RACE, ， 并 独立 进行 计算 的 话 ， 可 以 用 线性 约束 优化 技术 计算 及 的 行 向 量 。( 请 参考 Faugeras 
等 1993 年 的 文献 ， 其 中 用 到 了 类 似 的 方法 。) 


13.8.2 约束 线性 最 优化 
对 于 公式 (13-77) 所 示 的 系统 ， 现 在 的 问题 是 ， 求 出 使 得 IBwll 最 小 ， 并 且 满 足 约 束 条 件 
Iwi = 1 的 解 向 量 w， 其 中 这 里 w' 是 w 中 元 素 的 子 集 。 如 果 把 这 个 约束 施加 到 R 的 第 一 个 行 向 


BE, BA 
ri 
w= (r) 
713 


为 了 求解 这 个 问题 ， 有 必要 把 原来 的 方程 Bw=0 重 写 为 下 列 形 式 : 
Cw’ + Dw” = 0. 
其 中 w"' 是 由 w 中 其 余 元 素 构成 的 向 量 。 用 上 面 的 例子 ， 把 约束 条 件 加 到 有 的 第 1 行 ， 
Wi=(r mm ra rn na 3 b b k) 


对 于 原来 的 问题 ， 首 先 要 使 目标 函数 OQ=CW.+ DW" 最 小 化 ， 即 


min ICw + Dw” |? (13-82) 
BRA RAW P= 1， 用 拉 哥 朗 日 乘 子 法 ， 上 面 的 式 子 就 变 为 : 
min | |Cw’ + Dw”? +20 -lw (13-83) 


求解 上 面 的 最 小 化 问题 。 把 目标 函数 分 别 对 w' 和 w"' 求 偏 导数 ， 并 令 其 等 于 0。 





2 = 2C7(Cw + Dw”) — 2aw’ =0 (13-84) 
> = 2D"(Cw’ + Dw”) = 0 (13-85) 
从 公式 (13-85) 可 得 
w” = -(DID)-IDTCw/ (13-86) 
FEA (13-86) 代入 公式 〈13-84)， 得 到 
aw’ = [CTC - CTD(DID)-IDTC]w/ (13-87) 
可 以 看 出 ，4 是 下 面 矩 阵 的 特征 向 量 
M = CIC- CIDODID)-IDTIC (13-88) 


因此 ， 要 求 的 w' 对 应 矩阵 M 的 最 小 特征 向 量 。 对 应 的 w" 就 可 以 直接 通过 公式 (13-86) 求 
出 。 应 该 注意 地 是 ， 因 为 只 对 及 的 第 一 行 施加 幅 值 约束 条 件 ， 所 以 得 到 的 w" 是 不 可 靠 的 ， 这 
个 结果 还 不 能 使 用 。 但 是 求解 向 量 w”" 提 供 了 一 个 重要 的 信息 ， 就 是 关于 施加 约束 的 行 向 量 的 


oo 
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正 负 号 。 约 束 条 件 是 lw 小 = 1, m w 的 正 负 号 并 不 受 这 个 条 件 约束 。 所 以 要 检查 由 w' 得 
到 的 解 是 否 在 物理 上 是 可 能 的 。 特 别 地 ， 平 移 上 必须 是 正 值 ， 这 样 才 能 保证 目标 放 在 摄像 机 的 
前 面 。 如 果 向 量 w“ 中 对 应 .的 元 素 是 负数 的 话 ， 就 意味 着 算出 的 w' 的 幅 值 是 正确 的 ， 但 正 负 
号 不 对 ， 必 须 变 号 。 那 么 w' 的 最 后 表达 式 是 : 

w = sign(w’)w’ (13-89) 


13.8.3 计算 变换 Tr = {R,T} 


首先 通过 上 面 计算 的 w' 得 出 行 向 量 Ri， 


这 时 Ri = W'。 和 矩阵 C 和 DD 为 : 





X% yl Z 
0 0 
X2 只 z2 
c=]0 0 0 (13-90) 
X6 Yo Z6 
0 0 0 
和 
0 0 0 ux -uy uz f O -uu 
fx fy fz vixi vy) viz. 0 f =v 
0 0 0 —Uu2X2 —U2y2 —U2Z2 0 f —u2 - 
D=| fx ja -om -oj -uz 0 f -ww (13-91) 
0 0 0  —u6Xx6 一 8k6X ~Uez2o f 0 ue 
fxe fye f% —vexe 一 6 —usze 0 f —w 


然后 用 同样 的 方法 ， 求 行 向量 R,， 并 对 Rs 进行 幅 值 条 件 约束 ， 这 样 R,= w'， 和 矩阵 C 和 D 为 : 


0 0 0 
fxr fy fz 
0 0 0 
C=| fx. fn fz (13-92) 
0 0 0 
fxs fye fze 
和 
Jx fy fa ux, -uyy -uzi f O -u 
0 0 0 VX, Vy 一 1Z1 0 f 一 Ul 
fx. fy fz. —u:x2 uy —uzz2 f 0 —u 
— 0 0 0 一 一 一 一 
D = i v2x2 v2y2 222 0 f v2 (13-93) 
fxe fye fze 一 AHX6 一 MX —usze f 0 —us 
0 0 0 —V6xX6 —UV6YyYe ~—vV6zZ6 0 f — V6 


如 采用 与 Ri、R: 相 同 的 求法 求 出 Rs ， 将 不 满足 Ra 和 了 R,、R: 正 交 的 条 件 。Rs: 按 如 下 方式 计算 : 


3 


~ (Ra x Rall 


及 1 xR 
1 一 (13-94) 


这 时 及 的 行 向 量 几 乎 满足 所 有 的 约束 条 件 ， 但 只 有 一 个 : 不 能 保证 R; 与 R; 是 正 交 的 。 为 了 
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解决 这 个 不 希望 出 现 的 情况 ， 要 对 Ri、Rs 和 Rs 进行 正 交 化 处 理 ， 以 保证 旋转 矩阵 R 是 标准 正 
交 的 。 这 个 可 以 像 上 面 一 样 固定 Ri 和 Rs 并 对 Rs 重新 计算 如 下 : 
R: = R; x R; (13-95) 
这 样 就 算出 了 所 有 的 旋转 参数 ， 而 且 它们 满足 必要 的 约束 条 件 。 用 最 小 二 乘法 计算 平移 
向 量 T， 采 用 新 的 、 非 齐 次 和 超 约束 的 12 个 方程 : 


At=b (13-96) 
其 中 
f 0 -u;i 
0 f =y 
fa 
A=|0 f -v (13-97) 
f 0 —u6 
和 0 f =w 


=f (rux 十 ri2y1 t+ ri) + u1 (r31xX1 + r32y1 + 73321) 
=f (21xX1 + r221 + 12321) + vi (r31x1 + r32y1 + 73321) 
—f (r11x2 十 ri2y2 + 171322) + U1(r31X2 + r32y2 + 73322) 
b = | 一 /21x2 + r2y2 十 7r23z2) + 1 (r31x2 + r32y2 十 r3322) (13-98) 


— f (r11X6 + ri2y6 + 11326) + U1(r31X6 + r32y6 + 173326) 
— f (r21X6 + r22y6 + 12326) + V1(r31X6 + r32y6 + 73326) 





图 13-27 利用 约束 线性 优化 方法 ， 根 据 6 个 对 应 点 计算 姿态 的 实例 (Mauro Costa 提 供 ) 


13.8.4 位 姿 验证 和 位 姿 最 优化 

在 评价 位 姿 参数 的 质量 时 ， 应 该 有 一 种 定量 度量 方法 。 在 仿 射 标定 方法 中 已 经 用 到 了 一 
种 度量 方法 ， 也 就 是 模型 位 姿 投 影 点 与 对 应 图 像 点 之 间距 离 的 平方 和 。 然 而 有 的 目标 点 被 目 
标 自 己 或 者 其 他 物体 遮挡 ， 这 些 点 就 要 去 掉 。 也 可 用 其 他 类 型 的 距离 度量 方法 ， 例 如 豪 斯 多 
KR (Hausdorf) 距离 或 者 改进 的 豪 斯 多 夫 距 离 。( 请 参考 Huttenlocher 等 人 1993 年 的 文献 ， 以 
及 Dubuisson 与 Jain1984 年 的 文献 。) 也 可 用 其 他 特征 如 边 、 角 或 孔 等 进行 验证 。 

对 位 姿 参数 质量 的 度量 可 用 于 改进 被 估计 的 位 姿 参数 。 从 概念 上 讲 ， 我 们 能 够 对 相差 不 
大 的 参数 做 出 评价 ， 并 保留 最 好 的 参数 。 假 设 每 个 旋转 和 平移 参数 分 别 有 10 个 不 同 取 值 ， 采 
用 笨 方 法 进行 最 优 搜索 意味 着 将 评价 一 百 万 套 位 次 参数， 需要 的 计算 量 太 大 了 ， 一 般 不 这 样 
做 。 非 线性 最 优化 方法 ， 如 牛顿 方法 或 者 鲍威尔 方法 (参考 Press 等 人 1992 年 的 文献 ) 可 能 会 
更 快 。 图 13-28 显 示 了 单 目标 图 像 的 初始 位 姿 估 计 ， 以 及 在 初始 解 基础 上 进行 非 线性 最 优化 处 
理 后 的 结果 。 改 进 的 位 姿 从 观感 效果 上 明显 更 好 一 些 ， 这 对 于 抓 取 目 标 来 说 比较 有 用 ， 但 对 
于 识别 来 说 就 没有 必要 。 


A 














a) 初始 位 姿 b) 最 终 位 姿 
图 13-28 非 线性 最 优化 前 后 的 位 姿 情 况 (Mauro Costa 提 供 ) 


13.9 3D 目 标 重建 

对 3D 建 模 来 说 3D 测 量 是 非常 重要 的 。 我 们 能 够 得 到 目标 的 深度 图 像 ， 然 后 用 来 建立 目标 
的 计算 机 模型 。 这 种 3D 目 标 重 建 的 过 程 已 经 在 医学 和 工业 视觉 方面 得 到 应 用 ， 也 用 于 建立 虚 
拟 现 实 环境 所 需 的 目标 模型 。 这 一 节 对 目标 建 模 进 行 一 些 必 要 的 讨论 ， 这 也 是 下 一 章 的 主要 
内 容 。 目 标 重建 的 过 程 共 分 为 四 个 步骤 : 

1. 3D 数 据 获取 ; 

2. 图 像 配 准 ; 

3. 表面 重建 ; 

4. 优化 。 

在 3D 数 据 获取 这 一 环节 中 ， 深 度数 据 必须 根据 一 系列 物体 表面 的 视图 得 到 。 一 般 8~10 个 
视图 就 够 了 ， 但 对 于 复杂 物体 或 者 是 精度 要 求 严格 的 情况 下 ， 还 必须 要 有 更 多 的 视图 。 当 然 
视图 越 多 意味 着 计算 量 也 就 越 大 ， 因 此 并 不 是 越 多 越 好 。 

每 幅 视图 是 关于 目标 某 部 分 的 一 幅 深度 图 像 ， 经 常 是 配 准 后 的 灰 度 或 者 彩色 图 像 。 对 所 
有 视图 的 深度 数据 进行 综合 可 得 到 目标 的 表面 模型 。 亮 度数 据 可 用 于 图 像 配 准 过 程 ， 但 真正 
重要 的 是 在 图 形 学 纹理 映射 方面 的 应 用 ， 可 以 使 目标 视图 更 加 贴近 自然 。 把 这 些 深 度数 据 转 
换 到 一 个 3D 坐 标 系 的 过 程 称 为 图 像 配 准 (registration) 过 程 。 

对 这 些 数据 做 配 准 之 后 ， 就 能 看 到 3D 点 的 云图 (cloud of 3D points )， 但 是 要 建立 目标 模 
型 还 需 做 很 多 工作 。 可 以 有 两 种 方法 表示 3D 目 标 : (1) 用 3D 网 格 及 格 点 间 的 连 线 表示 出 目标 
表面 。(2) 用 一 组 3D 体 素 表示 出 目标 的 整个 体积 。( 参 见 第 14 章 中 关于 这 些 表示 方法 的 全 面 
解释 。 ) 不 同 表示 方法 之 间 可 以 相互 转换 。 


具有 隐藏 表面 的 物体 
有 的 物体 具有 隐藏 面 ， 不 管 拍 多 少 视图 都 看 不 
到 这 些 表 面 。 简 单 画 出 一 个 这 样 的 物体 。 为 了 简单 ， 
可 以 采用 2D 空 间 下 的 2D 模 型 。 
13.9.1 数据 获取 

利用 最 新 扫描 仪 可 以 得 到 配 准 彩色 图 像 的 深 
度 图 像 。 我 们 介绍 一 种 由 现成 商品 组 成 的 实验 系 
统 ， 并 重点 介绍 基本 操作 过 程 。 图 13-29 是 一 套 专 
用 的 主动 立体 视觉 系统 ， 可 用 来 得 到 深度 数据 和 
彩色 数据 。 系 统 采用 四 个 彩色 视频 摄像 机 ， 安 装 
在 铝 棒 上 。 摄 像 机 与 数字 化 电路 板 相 连 ， 数 字 电 









图 13-29 含 4 个 摄像 机 的 立体 图 像 捕 捉 系统 
(Kari Pulli 提 供 ) 
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路 板 由 计算 机 控制 切换 四 路 输入 ， 产 生 640 x 480 分 辨 率 的 图 像 。 摄 像 机 下 面 是 二 台 投 影 仪 ， 


射 到 黑暗 的 室内 ， 在 得 到 深度 图 像 后 ， 打 开 两 边 的 灯 ， 拍 摄 彩色 图 像 。 

系统 同时 采用 13.7 节 介绍 的 Tsai 算 法 对 摄像 机 进行 标定 。 这 个 系统 可 以 作为 标准 的 两 摄像 机 
体 视 系统 ， 或 者 是 更 稳健 的 四 摄像 机 体 视 系 统 。 无 论 那 种 情况 ， 投 影 仪 都 用 来 发 出 坚 直 线形 光 
带 照射 被 扫描 的 目标 。 计 算 机 控制 转盘 转动 ， 







光线 以 一 定 间隔 从 目标 的 左 侧 照 射 到 右 侧 ， pte 

间隔 的 多 少 可 由 用 户 选择 ， 这 样 可 以 产生 或 air EAER 
低 或 高 的 分 辨 率 。 每 到 一 个 位 置 ， 摄 像 机 拍 这 条 线 上 的 点 图 像 的 3D 空 间 
摄 黑暗 中 照射 到 目标 上 的 光 带 图 像 。 在 每 一 nate 线 《 外 极 线 ) 


幅 图 像 上 ， 光 带 与 外 极 线 的 交点 作为 立体 匹 
配 的 一 点 。 图 13-30 显 示 基 于 两 摄像 机 和 一 条 
光 带 的 三 角 测 量 原理 。 两 个 相 匹配 的 像素 点 
确定 3D 空 间 中 的 一 点 。 对 于 某 条 光 带 ， 沿 光 
带 对 每 个 像素 点 计算 相应 的 3D 点 。 然 后 转动 








该 像素 与 第 一 
投影 仪 ， 投 射 一 条 新 的 光 带 ， 得 到 一 幅 新 的 幅 图 中 的 那个 
图 像 ， 重 复 上 述 过 程 。 结 果 就 是 一 幅 稠密 深 像素 对 应 


图 13-30 两 幅 图 像 上 光 带 与 外 极 线 的 交点 提供 一 对 对 


度 图 像 ，3D 点 和 左 图 上 的 像素 点 对 应 ， 只 要 应 点 (Kari Pulli 提 供 ) 


这 个 点 对 投影 钓 和 右面 的 摄像 机 都 是 可 见 的 。 
用 两 台 以 上 的 摄像 机 可 以 提高 图 像 捕 所 系统 的 可 靠 性 。 一 台 摄像 机 作为 基本 摄像 机 ， 在 该 
摄像 机 坐标 系 下 计算 深度 图 像 。 物 体 表面 上 的 点 ， 对 于 基本 摄像 机 、 投 影 仪 和 其 他 摄像 机 中 至 
少 一 个 必须 是 可 见 的 。 如 果 它 只 是 对 三 台 摄像 机 中 的 一 个 可 见 ， 那 么 系统 便 是 两 台 摄 像 机 立体 
视觉 系统 。 如 果 它 对 于 三 台 摄 像 机 中 的 两 台 或 者 全 部 三 台 都 是 可 见 的话 ， 宛 余 的 图 像 就 能 使 系 
统 更 加 稳健 。 基 本 摄像 机 外 加 另 两 幅 图 像 ， 我 们 就 得 到 三 个 图 像 点 ， 这 样 就 有 三 个 对 应 图 像 点 
参与 三 角 计算 ,算出 3D 坐 标 。 得 出 的 三 个 结果 有 可 能 不 同 ， 但 如 果 它 们 相差 不 是 很 大 的 话 
(也 就 是 说 ， 它 们 都 在 7mms 的 体积 范围 内 )， 就 认为 它们 是 有 效 的 ， 可 取 算 出 的 三 个 3D 点 的 平 
均值 作为 最 终结 果 。 或 者 采用 基线 最 宽 的 两 
摄像 机 测量 结果 ， 因 为 这 个 结果 比 其 他 两 种 
情况 更 可 靠 。 如 果 该 点 在 全 部 四 台 摄 像 机 中 
都 是 可 见 的 ， 便 有 六 种 可 能 的 组 合 。 仍 然 可 
以 检验 他 们 是 否 都 落 在 一 个 小 的 体积 范围 内 ， 
抛弃 范围 外 的 结果 ， 采 用 结果 平均 值 或 者 采 
用 基线 最 宽 的 那 对 摄像 机 的 测量 结果 。 这 样 
做 的 精度 要 高 于 只 用 一 对 固定 摄像 机 的 精度 。 
(在 测量 车 内 的 人 体位 置 时 ， 如 图 13-1 所 示 ， 
AREEN e win 图 13-31 4- 摄 像 机 主动 体 视 系统 得 到 的 玩具 卡车 深 
mm)。 图 13-31 中 显示 利用 该 方法 计算 的 玩 度 图 像 。 为 了 看 起 来 方便 ， 深 度 点 用 亮度 
具 卡 车 的 深度 图 像 。 该 套 3D 卡 车 数据 清楚 地 数据 进行 着 色 (Habib Abi-Rached 提 供 ) 
显示 出 卡车 的 外 形 。 
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13.9.2 视图 配 准 

为 了 覆盖 物体 的 整个 表面 ， 必 须根 据 多 幅 视 图 得 到 深度 数据 。 视 图 1 到 视图 2 的 变换 ?T， 
要 么 是 通过 精确 的 机 械 运 动 得 到 ， 要 么 是 通过 图 像 对 应 求 出 。 如 果 用 高 精度 设备 ， 如 标定 好 
的 机 器 人 或 者 坐标 测量 机 ， 来 控制 摄像 机 或 者 物体 运动 ， 那 么 系统 就 可 以 自动 完成 视图 之 间 
的 变换 。 如 果 摄 像 机 或 物体 的 运动 不 是 机 器 控制 的 ， 就 必须 有 一 种 检测 视图 对 应 的 方法 ， 该 
检测 方法 计算 数据 从 一 幅 视图 映射 到 另 一 幅 视 图 的 刚性 变换 。 可 以 借助 3D 特 征 如 角 点 和 线段 
特征 自动 完成 ， 基 于 这 些 特征 可 以 得 到 一 些 3D-3D 的 对 应 点 ， 从 而 算出 变换 关系 。 也 可 以 通 
过 交互 的 方式 ， 比 如 允许 用 户 在 一 对 目标 图 像 上 选择 对 应 点 。 无 论 那 种 情况 ， 最 初 的 变换 都 

不 会 是 完美 的 。 机 器 人 和 测量 机 会 产生 伴随 误差 ， 当 运动 比较 多 时 误差 将 会 变 大 。 自 动 寻找 

对 应 点 的 方法 受到 匹配 算法 的 影响 ， 也 许 会 找到 错误 的 对 应 点 ， 或 者 特征 不 太 准 确 。 人 工 选 
点 的 方法 也 会 出 现 误 差 ， 即 使 量化 后 能 够 找到 正确 的 像素 ， 但 变换 也 有 可 能 是 错误 的 。 

为 了 解决 这 些 问题 ， 多 数 图 像 配 准 方法 采用 迭代 算法 ， 初 值 采 用 估计 的 变换 ?T。 不 管 这 
个 变换 是 怎么 得 到 的 ， 通 过 一 个 最 小 化 策略 对 它 不 断 修改 。 例 如 最 近 点 迭代 算法 (ICP), 使 
3D 点 1T'P 和 PP 之 间 的 距离 之 和 最 小 化 ， 其 中 点 'P 来 自 一 幅 视 图 ，?P 是 另 一 幅 视 图 中 与 点 'P 相 距 
最 近 的 点 。 在 此 基础 上 的 另 一 种 方法 是 ， 在 第 二 幅 视 图 中 寻找 一 点 ， 沿 从 ?T!P 到 表面 的 法 线 
方向 ， 在 第 二 幅 视图 中 插入 一 个 邻 域 。( 参 见 Chen 和 Medioni(1992) 以 及 Dorai 等 人 (1994) 发 
表 的 文献 )。 当 得 到 彩色 数据 时 ， 就 可 以 利用 估计 出 的 变换 ， 把 彩色 数据 从 一 个 视图 投影 到 另 
一 个 视图 ， 并 定义 一 个 距离 测度 来 表示 它们 的 对 齐 程度 。 可 以 对 这 个 距离 进行 迭代 最 小 化 ， 
找 出 3D 点 之 间 的 最 佳 变换 。 图 13-32 是 用 ICP 算 法 对 两 幅 沙 发 视图 的 配 准 过 程 。 





图 13-32 (Kari Pulli 提 供 ) 


(左上 图 ) 对 两 组 深度 数据 进行 配 准 

(右上 图 ) 在 与 深度 视图 对 应 的 亮度 图 像 上 由 用 户 选 出 四 个 点 
( 右 下 图 ) 存在 少量 偏差 的 初始 变换 

(左下 图 ) 几 次 迭代 后 ， 两 组 深度 数据 得 到 很 好 地 对 齐 
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13.9.3 表面 重建 

一 旦 数据 配 准 到 同一 个 坐标 系 中 ， 就 可 以 开始 重建 工作 。 希望 重建 目标 与 实际 物体 在 外 
形 上 尽 可 能 相似 并 且 保 持 其 拓扑 结构 。 图 
13-33 显 示 在 重建 过 程 中 可 能 出 现 的 问题 。 
配 准 的 深度 数据 很 密集 ， 但 是 噪音 干扰 非 
常 大 。 在 实际 椅子 体外 有 多 余 的 斑点 ， 尤 
其 是 椅子 的 靠背 部 分 。 中 间 的 重建 结果 十 
分 粗糙 ， 它 把 深度 数据 只 看 作 是 3D 空 间 点 
的 云图 ， 而 并 没有 考虑 物体 的 几何 形状 以 
及 深度 数据 点 之 间 的 邻接 关系 。 在 保持 物 
体 拓扑 结构 方面 也 很 失败 。 右 边 的 重建 结 
果 就 比较 好 ， 它 去 掉 了 大 部 分 噪声 ， 并 且 图 13.33 (Kari Pulli 提 供 ) 
保留 了 椅子 靠背 上 的 空 陆 。 该 重建 是 用 空 J RADAR 
EmA (space-carving) 算法 生成 的 ， 下 b) 重建 过 程 出 现 的 问题 
面 介绍 该 算法 。 c) 具有 正确 拓扑 结构 的 粗略 网 格 模型 
13.9.4 空间 切割 算法 

空间 切割 算法 是 由 Curless 和 Levoy 提 出 的 ， 这 里 介绍 的 方法 是 由 Pulli 等 人 (1998) 实现 的 
算法 。 图 13-34 说 明了 它 的 基本 思想 。 左 图 是 要 根据 视图 重建 的 目标 。 中 图 中 一 台 摄 像 机 在 观 
察 目标 。 根 据点 相对 目标 与 摄像 机 的 位 置 ， 把 空间 划分 成 不 同 的 区 域 。 目 标的 左 侧 和 底部 对 “区 
摄像 机 是 可 见 的 。 扫 描 到 的 表面 和 摄像 机 之 间 的 体积 空间 ( 浅 灰 色 ) 位 于 目标 前 面 ， 可 以 去 
掉 。 除 了 目标 ， 如 果 还 有 背景 数据 ， 就 可 以 去 掉 更 多 的 体积 空间 ( 深 灰 色 )。 另 外 ， 目 标 后 面 
的 点 不 可 以 去 掉 ， 因 为 只 有 一 台 摄像 机 ， 不 能 告诉 我 们 那些 点 是 目标 的 一 部 分 还 是 目标 后 面 
的 空间 。 在 右 图 中 ， 另 一 台 摄像 机 观察 目标 ， 可 以 切除 更 多 的 体积 空间 。 通 过 足够 多 的 视图 
就 可 以 将 大 部 分 不 想 要 的 自由 空间 切除 ， 只 留 下 目标 的 体 素 模型 。 








图 13-34 空间 切割 思想 (Kari Pulli 提 供 ) 


a) 目标 剖面 图 

b) 摄像 机 视图 1 能 够 去 除 浅 灰 色 的 空间 

c) 摄像 机 视图 2 可 以 除 掉 其 他 一 些 空间 (但 还 有 一 部 分 剩余 ) 

空间 切割 算法 将 空间 划分 成 小 立方 体 或 体 素 的 集合 ， 可 以 每 次 只 处 理 一 个 体 素 。 图 13-35 
显示 只 有 一 幅 视图 如 何 确定 立方 体 的 状态 。 

* 在 a 情 况 下， 立方 体位 于 深度 数据 和 传感器 之 间 ， 因 此 这 个 立方 体 肯定 不 属于 目标 ,不 
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* 在 b 情 况 中 ， 整 个 立方 体位 于 深度 数据 后 面 。 在 传感器 看 来 ， 立 方 体 属 于 目标 。 
“ 在 c 情 况 下 ， 立 方 体 既 不 完全 在 数据 前 面 ， 也 不 是 完全 在 数据 后 面 ， 被 认为 是 与 目标 表 
面 交叉 。 


所 关心 的 传感器 
被 测 表面 立方 体 MFH y 





图 13-35 与 重建 目标 有 关 的 立方 体 三 种 空间 位 置 (Kari Pulli 提 供 ) 

立方 体 标记 过 程 实现 如 下 : 立方 体 的 八 个 角 投影 到 传感器 的 图 像 平面 中 ， 其 中 凸 出 的 外 
形 大 致 构成 一 个 六 边 形 。 传 感 器 到 六 边 形 的 光线 形成 一 个 锥 体 ， 锥 体 的 顶端 被 截 去 ， 这 样 它 
就 包含 该 立方 体 。 如 果 所 有 投影 到 六 边 形 上 的 数据 点 位 于 被 截 锥 体 的 后 面 ( 比 传感器 到 立方 
体 的 最 远 角 点 还 要 远 ) ， 立 方 体 则 位 于 目标 之 外 ; 如 果 这 些 点 比 最 近 的 立方 体 角 点 还 要 近 ， 那 
么 立方 体 便 位 于 目标 之 内 ; 否则 的 话 ， 它 便 是 一 个 边界 立方 体 。 

到 现在 为 止 ， 我 们 只 看 到 一 个 立方 体 和 一 个 传感器 。 而 切割 自由 空间 需要 多 个 传感器 
(或 视图 )。 对 于 所 有 传感器 将 上 述 立 方 体 标 记 步 又 都 进行 一 遍 。 即 使 只 有 一 个 传感器 告诉 我 
们 立方 体位 于 目标 的 外 部 ， 那 么 就 确定 立方 体位 于 目标 之 外 。 如 果 所 有 的 传感器 都 表明 立方 
体位 于 目标 内 部 ， 这 时 才能 说 该 立方 体 是 目标 的 一 部 分 。 也 许 有 视图 能 够 说 明 立 方 体位 于 目 
标 之 外 ， 但 我 们 却 没 有 这 幅 视图 。 第 三 种 情况 ， 如 果 立 方 体 既 不 在 目标 内 部 也 不 在 目标 外 部 ， 
那么 它 就 是 一 个 边界 立方 体 。 

用 八 又 树 分 层 结构 进行 立方 体 标记 ， 要 比 用 固定 大 小 的 立方 体 更 加 有 效 。 第 14 章 将 详细 介 
绍 八 又 树 (octree)， 这 里 只 是 简单 使 用 八 又 树 的 概念 ， 比 较 容易 理解 。 开 始 时 ， 一 个 大 立方 体 
包围 着 深度 数据 。 根 据 定义 这 个 大 立方 体 与 深度 数据 相交 又 ， 就 将 它 分 成 八 个 较 小 的 立方 体 。 
去 掉 位 于 目标 外 的 立方 体 ， 而 位 于 目标 内 
的 立方 体 可 以 看 作 是 目标 的 一 部 分 。 然 后 
对 边界 立方 体 作 进一步 的 划分 。 继 续 这 一 
过 程 直到 产生 期 望 的 解 为 止 。 最 后 得 到 的 
八 又 树 就 表示 该 3D 目 标 ， 图 13-36 说 明 对 
椅子 所 进行 的 分 层 空 间 分 割 过 程 。 

为 了 看 起 来 方便 ， 八 又 树 可 表示 为 如 
图 13-36 所 示 的 3D 网 格 形式 。 初 始 网 格 建 
立 之 后 ， 通 过 使 网 络 进一步 简化 并 更 好 地 
与 数据 拟 合 ， 使 网 络 得 到 优化 。 图 13-37a 
显示 配 准 的 小 狗 深度 数据 ，b 是 初始 化 网 
格 ，c~f 是 几 步 优化 结果 ， 这 是 Hoppe 等 人 图 13-36 分 层 空间 切割 ， 经 过 七 次 切割 产生 椅子 
于 1992 年 所 做 的 工作 。f 是 最 后 的 网 格 图 ， 的 网 格 图 (Kari Pulli 提 供 ) 
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比 开始 的 那 幅 更 加 简洁 而 且 光 滑 。 现 在 最 后 的 网 格 图 可 用 于 图 形 学 系统 ， 进 行 目标 实际 视图 
的 绘制 ， 如 图 13-38 所 示 ; 或 者 用 于 第 14 章 所 讲 的 基于 模型 的 目标 识别 方面 。 





图 13-37 配 准 的 深度 数据 和 建立 小 狗 网 格 图 的 五 个 步 又 (Kari Pulli 提 供 ) 


13.10 从 明暗 恢复 形状 


第 6 章 和 第 12 章 都 讨论 了 具有 光滑 曲面 的 物体 ， 如 何 对 光线 进行 反射 生成 具有 明暗 效果 的 


图 像 。 下 面 我 们 简单 介绍 在 一 定 条 件 下 ， 如 
何 根据 图 像 的 明暗 效果 计算 目标 的 形状 。 

人 们 倾向 于 认为 逐渐 变 深 的 表面 逐渐 远 
离 我 们 的 视线 。 在 脸 上 使 用 化 妆 品 ， 就 可 以 
改变 别人 对 自己 的 感觉 。 把 比 脸 部 颜色 更 深 
的 化 妆 品 涂 在 脸颊 外 侧 ， 会 使 得 脸 部 看 起 来 
更 窄 一些 ， 因 为 暗色 调 使 我 们 感到 表面 离开 
视线 的 速度 更 快 一 些 。 同 样 道理 ， 比 脸 部 颜 
色 浅 的 化 妆 品 会 产生 相反 的 效果 ,给 人 一 种 
脸 部 更 丰满 的 感觉 。 使 用 朗 伯 反射 公式 ， 可 
将 图 像 亮度 变化 映射 成 表面 面 元 的 法 线 方向 。 
Horn 和 Bachman (1978) 早期 的 工作 ， 研 究 
了 月 球 拓扑 结构 的 确定 方法 ， 遥 远 的 太阳 光 
线 照射 到 月 球 上 ， 并 在 遥远 的 地 球 上 观察 月 
球 。 这 类 方法 已 经 发 展 成 为 从 明暗 恢复 形状 
(shape from shading，SFS )， 即 将 图 像 中 的 
明暗 变化 映射 成 场景 中 物体 的 表面 方向 。 





a) 


图 13-38 (Kari Pulli 提 供 ) 
a) 小 狗 模型 的 伪 彩 色 绘 制图 ， 用 户 可 以 对 它 进 行 操纵 以 
选择 一 幅 想 要 的 视图 
b) 箭头 所 指 的 3D 点 表示 小 狗 模型 的 鼻子 ， 将 它 投影 到 三 
幅 彩色 小 狗 图 像 上 ， 以 选择 像素 点 进行 小 狗 实际 颜色 
的 绘制 


定义 109 从 明暗 恢复 形状 的 方法 ， 根 据 图 像 的 明暗 效果 计算 表面 形状 n = ftx, y), H 

中 n 是 表面 在 图 像 点 (x, y) 处 的 法 线 方向 ，77[x, y] 是 像素 亮度 。 

图 13-39 说 明了 从 明暗 恢复 形状 的 方法 。 左 图 是 物体 的 一 幅 图 像 ， 它 的 表面 基本 上 是 朗 伯 
反射 表面 ， 图 像 亮 度 与 表面 方向 和 光照 方向 的 夹 角 成 正比 。 右 图 显示 了 物体 表面 上 几 点 处 的 
表面 方向 。 很 明显 ， 最 亮 的 图 像 点 说 明了 该 点 正 对 着 光源 ， 即 图 中 X 处 指向 我 们 的 点 的 方向 。 
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边缘 点 的 表面 方向 与 视线 和 表面 边界 垂直 ， 这 就 完全 限制 了 边缘 点 在 3D 空 间 中 的 方向 。 利 用 
这 些 约束 ， 表 面 方向 可 以 传播 到 所 有 的 图 像 
点 上 ， 这 就 产生 了 部 分 本 征 图 像 。 为 了 得 到 
每 个 图 像 点 处 的 深度 z， 我 们 可 以 给 最 亮 的 
所 赋值 zu。， 然 后 利用 表面 方向 的 变化 将 深度 
传播 到 图 像 的 每 一 点 。 





假设 朗 伯 表面 的 立方 体 ， 所 有 表面 方向 
与 光照 方向 至 少 成 xn/6 夹 角 。 很 明显 ， 最 亮 图 13-39 
的 图 像 点 处 的 方向 并 不 是 指向 光源 的 方向 。 (E) 朗 伯 表 面 物 体 的 明暗 效果 图 像 ， 光 源 离 摄像 机 比较 近 
为 什么 对 鸡蛋 和 花瓶 来 说 ， 最 亮 图 像 点 处 的 ( 右 ) 画 出 了 边界 处 的 表面 方向 ， 边 界 由 Canny 算 子 检测 得 到 
方向 是 指向 光源 的 方向 ， 而 对 立方 体 来 说 却 不 是 呢 ? 


ett RE RESEND EES SNR ES SEIS 





AHIRDA, RRA RERNE Al i A BR EEA? 

朗 伯 反 射 模型 是 i=c cos 9， 其 中 常量 c 与 光 能 、 表 面 反照 率 、 表 面 元 素 与 光源 和 传感器 之 
间 的 距离 有 关 ， 这 些 因素 都 是 常量 因素 。 在 距离 上 假设 目标 与 光源 及 传感器 的 距离 是 目标 直 
径 的 好 九 倍 。 经 常 也 假设 光照 方向 是 已 知 的 ， iim ha pm 光照 方向 有 时 根据 较 弱 
的 假设 条 件 计 算出 来 。 

目前 的 情况 用 正 投影 最 方便 。 假 设 3D 空 间 坐标 [c, y, z] 的 参考 坐标 系 是 摄像 机 坐标 系 。 被 
观测 表面 是 z = fx, 7)。 现 在 的 问题 是 ， 对 于 每 个 图 像 点 根据 观测 到 的 亮度 值 5(x, y) 计算 函数 / 


的 值 。 tw y) - <= 0 进行 微分 可 得 Lart Ay- Ac=0 ， 其 向 量 表 达 形式 为 pg -1 0 Lax 


Ay, Az] = 0， 其 中 p 和 gq 分 别 表示 /jx 和 ly 的 偏 微分 。 该 等 式 定义 了 在 表面 点 tx, y, fl, 让 ] 处 的 切 平 面 
方程 ， 该 点 处 的 表面 法 线 方向 为 [p, q, -1]， 
这 不 是 单位 向 量 。 如 果 知 道 [x。， Yor zo] 是 表 
面 上 的 一 点 ， 并 且 知 道 P 和 gq， 那么 上 面 的 
平面 近似 说 明 ， 可 在 该 点 附近 的 切 平面 内 | 
寻找 近似 的 表面 点 [w+ Ax, yo + Ay, w+ Az]。 M25 [pz ,gz 一 
只 要 能 利用 亮度 图 像 和 有 关 假 设 条 件 估 计 Aan ig 
出 p 和 4 来 ， 我 们 就 可 以 做 到 这 一 点 。 By ee ede A ; 
通过 拍摄 已 知 目标 的 图 像 ， 就 能 够 
将 表面 方向 与 亮度 联系 起 来 。 对 于 图 像 
ÆRE, y]， 只 要 知道 点 [x, y, fæ, y)] 处 
的 表面 方向 [p, q, -1]， 就 可 以 利用 对 应 
数据 <p, q, Ix, yi> 计算 映射 ， 该 映射 使 
表面 方向 与 它 产生 的 明暗 效果 联系 起 来 。 
图 13-40 显 示 了 这 种 多 对 一 的 映射 关系 。 E "19 中 


与 光照  OFE IY. (A) 沿 锥 简 的 所 有 表面 方向 将 产生 相同 的 亮度 
PA Ta E RN RLR OARA EE (Ai) 反射 映射 表 将 表面 方向 和 亮度 联系 起 来 ， 这 是 多 对 一 的 映射 






N= [pl1,91, —1] 
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的 图 像 亮度 。 用 来 做 标定 的 最 好 物体 就 是 球体 ， 因 为 (a) 球体 可 以 显示 所 有 的 表面 方向 ， 以 
及 (b) 根据 图 像 点 相对 球 心 的 位 置 和 球 的 半径 ， 可 以 很 容易 求 出 表面 方向 。 图 13-41 显 示 球 
体 的 标定 结果 ， 采 用 两 个 不 同 的 光源 。 对 于 每 个 光源 ， 可 以 建立 一 个 反射 映射 表 ， 该 反射 映 
射 表 储 存 了 产生 某 亮度 的 所 有 表面 方向 。 

如 图 13-39 和 13-41 所 示 ， 图 像 亮 度 对 表面 方位 来 说 是 一 个 很 强 的 约束 ， 但 是 并 不 能 唯一 地 
决定 表面 的 法 线 方向 ， 还 需要 其 他 约束 条 件 。 一 般 有 两 种 方法 : 第 一 种 就 是 利用 空间 邻 域 信 
息 ， 例 如 ， 像 素 和 它 的 4 邻 域 产生 5 个 明暗 方程 ， 对 这 些 方 程 进行 联 立 可 求 出 通过 这 5 点 的 光滑 
表面 ; 第 二 种 方法 是 采用 多 幅 亮度 图 像 ， 这 样 就 可 以 利用 一 个 像素 的 多 个 方程 ， 而 不 考虑 它 
的 邻 点 。 这 种 方法 被 称 为 光度 立体 ( Pii stereo ) 


a) 照明 来 自 右 下 方 b) 照明 来 自 右上 方 


A 
SS] 
© 


图 13-41 用 同一 材质 的 朗 伯 标定 球体 作为 研究 目标 ， 建 立 反 射 映射 表 。 在 被 观测 的 
球体 图 像 中 ， 对 每 个 点 [x, 习 利 用 解析 几何 求 出 P 和 4。 我 们 可 以 将 每 个 图 
像 点 ic 习 处 的 对 应 数据 <p, q, Ix, y]> 插 入 映射 表 中 。 光 源 不 同 ， 得 到 的 映 
射 表 就 不 同 





已 知 标定 球体 ， 半 径 为 -， 位 于 摄像 机 坐标 系 C:[x, y, z] 的 [0，0，100] 处 。 根 据 图 像 位 置 
Lx, 习 推 导 求 p 和 4 的 公式 。 回 想 正 投影 是 怎样 去 掉 z 坐 标的 。 


13.10.1 光度 立体 
光度 立体 依次 采用 不 同 的 光源 照射 目标 ， 得 到 目标 的 多 幅 图 像 。 对 每 个 像素 点 都 得 到 一 

组 亮度 值 ， 然 后 通过 查 表 得 到 相应 的 表面 法 线 方 向 。 如 图 13-41 所 示 ， 该 表 通 过 离线 的 光度 标 

定 程序 建立 。 算 法 13.4 描 述 了 这 个 过 程 。 光 度 立体 是 一 种 快速 方法 ， 在 受 控 环 境 中 ， 这 种 方 

法 十 分 有 效 。Ray 等 人 (1983) 指出 ， 采 用 三 个 均衡 的 光源 ， 即 使 对 于 反光 物体 也 能 得 到 很 好 

的 结果 。 但 如 果 从 明暗 恢复 形状 需要 严格 控制 环境 的 化 ， 用 结构 光 效果 会 更 好 ， 这 是 当前 工 “ [6 

业 发 展 的 趋势 。 

算法 13.4 ”光度 立体 法 : 利用 三 个 不 同 光源 修 ，*L， 引 得 到 三 幅 图 像 1，?|，3|。 根 据 

图 像 计算 场景 点 的 表面 法 线 方 向 [p, ql 

离线 标定 : 
1. 把 标定 球 放 在 场景 中 心 。 
2. 对 于 每 一 个 光源 江 。 

(a) 打开 光源 江 。 

(b) 拍摄 标定 球面 的 图 像 。 
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(c) 建立 反射 映射 月 = {<p, q, ix, y]>}， 其 中 (p, q) SRIF REIL, y] 对 
应 。 

在 线 表面 测量 : 

1. 将 被 测 目 标 放 在 场景 中 心 。 

2. 分 别 使 用 每 个 光源 江 ， 快 速 拍摄 三 幅 图 像 江 。 

3. 对 于 每 个 图 像 点 [x, y] 

(a) 使 用 亮度 ij= 江 [x,y] 检 索 反 射 映射 表 廊 ， 并 且 访 问 与 亮度 ij 对 应 的 方向 集 
Rj={(p, 9)}。 

(b) 取 三 个 集合 的 交集 S= R, AR, mR,。 

(c) 如 果 S 为 空 的 话 ， 那 么 赋值 N[x,y]=NULL。 否 则 ， 将 S 中 的 平均 方向 向 量 赋 
值 给 N[x, yl. 

4.N[x, y] 作 为 存放 表面 法 线 方向 的 本 征 图 像 部 分 返回 。 


13.10.2 结合 空间 约束 

人 们 提出 了 几 种 方法 ， 通 过 对 空间 邻 域 应 用 明暗 约束 ， 确 定 光滑 表面 的 函数 > = fx, y). 
一 种 方法 就 是 前 面 提 到 的 ， 从 最 亮 的 图 像 点 向 表面 传播 的 方法 。 最 小 化 方法 寻找 符合 约束 条 
件 的 最 佳 函数 。 图 13-42 是 最 小 化 算法 求 得 的 一 个 结果 。 用 网 格 表 示 算出 的 表面 ， 其 中 两 个 合 
成 目标 和 一 个 实际 目标 。 结 果 的 好 十， 与 这 些 数据 对 应 的 任务 有 关 。 这 种 方法 在 实际 应 用 中 
不 是 很 可 靠 。 

从 明暗 恢复 形状 的 研究 工作 证 明 ， 明 瞳 信息 对 于 表面 形状 来 说 是 较 强 的 约束 。 这 是 纯 计 
算 机 视觉 问题 一 个 很 好 的 例子 。 输 入 、 输 出 以 及 假设 都 进行 了 很 清楚 的 定义 。 在 有 的 情况 下 ， 
很 多 数学 算法 都 能 产生 很 好 的 效果 ， 但 没有 一 项 工作 能 在 各 种 场景 下 都 产生 很 好 的 效果 。 感 
兴趣 的 读者 可 以 阅读 参考 文献 ， 以 深入 了 解 这 方面 的 内 容 ， 尤 其 是 那些 数学 算法 ， 在 这 里 我 
们 只 做 了 简单 介绍 。 























图 13-42 Tsai-Shah 算 法 分 别 用 在 合成 图 像 和 实际 图 像 的 结果 (Mubarak Shah 提 供 ) 
( 左 ) 对 花瓶 的 CAD 模 型 应 用 漫 反射 光照 模型 产生 图 像 ， 由 图 像 算出 表面 
(中 ) 从 合成 的 莫扎特 半身 像 得 到 的 表面 
CH) 从 青椒 的 实际 图 像 得 到 的 表面 
13.11 从 运动 恢复 结构 
人 类 通过 在 环境 中 的 运动 感知 到 大 量 3D 结 构 的 信息 。 当 我 们 或 者 目标 产生 运动 时 ， 我 们 
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能 够 从 图 像 序列 中 获取 信息 。 利 用 流向 量 或 者 对 应 点 ， 就 可 以 重建 3D 场 景 的 表面 和 角 点 ， 以 
及 传感器 在 场景 中 的 运动 轨迹 。 这 个 直观 过 程 可 以 改进 为 一 类 专门 定义 的 数学 问题 。 利 用 计 
算 机 视觉 算法 计算 场景 结构 以 及 目标 与 观察 者 的 运动 ， 这 种 构建 问题 进行 起 来 非常 困难 。 研 
究 虽 然 在 平稳 进步 但 是 进展 非常 缓慢 。 
图 13-43 是 一 般 情况 ， 其 中 观察 者 和 场景 中 的 目标 都 可 能 在 运动 。 目 标 和 观察 者 之 间 的 相 
对 运动 在 图 像 中 形成 流向 量 。 这 些 可 以 通过 点 匹配 或 光 流 的 方法 算出 来 。 图 13-44 显 示 五 个 3D 
点 有 很 大 差异 的 两 幅 视 图 。 文 献 中 的 不 同情 
况 ， 体 现在 问题 定义 和 实现 的 算法 上 的 不 \ / 
同 。 了 
问题 定义 中 用 到 的 3D 目 标 也 许 是 7 472 
。 点 473 
。 线 
“平面 片 
° 曲面 片 
在 一 定 假设 条 件 下 ， 算 法 不 仅 应 该 产生 3D 目 
标的 结构 ， 还 应 得 到 且 标 在 摄像 机 坐标 系 中 
的 运动 情况 。 已 有 的 许多 算法 都 假设 3D 目 标 
已 被 可 靠 地 测量 和 匹配 。 测 量 和 匹配 是 十 分 
困难 的 ， 容 易 产 生 误差 ， 目 前 为 止 很 少 有 令 i 
人 信服 的 演示 例证 。 基 于 图 像 流 的 算法 ， 拍 ”图 13-43 场景 中 观察 者 和 目标 同时 运动 。3D 点 的 运 
取 图 像 的 时 间 间 隔 很 小 ， 试 图 计算 稠密 的 3D 动 投影 成 前 后 两 幅 图 像 间 的 2D 流 向 量 
结构 。 而 基于 特征 对 应 的 算法 ， 可 以 容忍 较 
长 的 时 间 间 隔 ， 但 只 能 得 到 稀 玻 的 3D 结 构 。 





图 13-44 场景 中 目标 静止 ， 观 察 者 运动 。3D 目 标点 ”了 投影 到 两 幅 图 像 上 形成 2D 图 像 点 
卫生 ， 由 于 摄取 图 像 的 时 间 和 空间 差异 很 大 ， 造 成 点 的 对 应 十 分 困难 。 如 果 
找到 了 图 像 对 应 点 ， 问 题 就 变 成 计算 相对 运动 TR 和 3D 点 ”了 P 的 坐标 
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Ullman (1979) 的 早期 工作 表明 ， 对 于 四 点 刚体 结构 ， 采 用 一 台 固定 摄像 机 ， 根 据 这 四 
点 的 三 个 正 投影 ， 从 理论 上 可 以 算出 四 点 刚体 的 结构 和 运动 。 十 年 之 后 ，Huang 和 Lee (1989) 
证 明 只 用 两 个 正 投影 解决 不 了 这 个 问题 。 对 于 从 运动 恢复 形状 ， 极 简化 的 数学 模型 有 趣 但 求 
解 起 来 非常 困难 ， 由 于 噪声 和 错误 匹配 容易 带 来 误差 ， 所 以 它们 并 不 是 很 实用 。Haralick 和 
Shapiro (1993) 论述 了 几 种 数学 途径 ， 并 且说 明 计算 方法 的 稳健 性 。Brodsky 等 人 (1999) 
利用 移动 的 摄像 机 观察 静态 场景 ， 计 算出 稠密 的 目标 形状 ， 给 出 了 比较 好 的 实验 结果 。 在 本 
书 第 1 章 ， 我 们 曾经 提问 是 否 能 根据 巴黎 圣母 院 的 视频 建立 它 的 3D 模 型 。 这 就 是 一 个 从 运动 恢 
复 结构 的 问题 ， 而 且 现 在 商业 上 已 经 有 了 这 样 的 计算 机 视觉 系统 。 对 这 些 方 法 的 总 结 ， 可 以 
参考 Faugeras 等 人 (1998) 发 表 的 论文 。 我 们 介绍 了 从 运动 恢复 结构 的 一 般 性 问题 以 及 几 个 
方面 的 内 容 ， 建 议 希 望 深入 研究 的 读者 阅读 已 出 版 的 相关 文献 。 


PARIS SS 改进 算法 13.4 

把 交集 计算 放 在 离线 阶段 ， 可 以 提高 算法 13.4 的 效率 。 证 明 为 什么 可 以 这 么 做 。 选 用 什么 
样 的 数据 结构 才 适 合 在 线 过 程 储存 结果 ? 
13.12 参考 文献 

仿 射 摄像 机 的 标定 方法 参考 的 是 Ballard 和 Brown (1982) 以 及 Hall 等 人 (1982) 的 早期 工 
作 。 后 者 还 提 到 采用 一 套 标 定好 的 摄像 机 和 投影 仪 的 结构 光 系 统 。 现 有 几 种 行 之 有 效 的 摄像 
机 标定 方法 。 对 于 目标 识别 ， 采 用 仿 射 透视 模型 甚至 是 弱 透 视 模型 精度 常常 就 够 用 了 。 但 对 
于 检测 或 者 是 精确 的 位 姿 计算 ， 就 需要 考虑 径 向 畸变 的 模型 ， 也 就 是 应 用 广泛 的 Tsai 方 法 ， 参 
见 Tsai (1987)。 很 多 机 器 视觉 应 用 需要 进行 标定 ， 但 也 有 很 多 情况 不 需要 标定 ， 就 像 我 们 用 
视频 摄像 机 扫描 外 景 一 样 。 我 们 不 知道 某 时 某 点 的 焦距 是 多 少 ， 也 不 知道 相对 世界 坐标 系 的 
位 姿 参 数 。 但 人 类 却 能 根据 这 些 图 像 感 知 出 世界 的 3D 结 构 。 假 设 只 用 了 透视 投影 ，3D 结 构 就 
可 以 在 不 知道 比例 因子 的 情况 下 算出 来 。Faugeras 等 人 的 工作 (1998) 说 明了 如 何 根据 图 像 序 
列 建立 建筑 物 的 纹理 映射 3D 模 型 。Brodsky 等 人 (1999) 给 出 了 更 一 般 表面 结构 的 计算 结果 。 

我 们 的 P3P 解 法 参考 了 Ohmura 等 人 (1988) 的 工作 。Linnainmaa 等 人 (1988) 的 类 似 工 
作 几 乎 在 同一 时 间 进 行 。 但 是 要 注意 到 Fischler 和 Bolles (1981) 曾经 研究 过 同样 的 问题 ， 并 
且 公 布 了 封闭 形式 的 解法 。 在 图 像 序列 中 跟踪 一 个 目标 时 ， 和 迭代 求解 方法 具有 一 定 的 优势 ， 
因为 可 以 利用 一 个 起 始点 ， 该 起 始点 能 帮助 去 掉 错误 的 解 。 另 一 种 合适 的 模型 是 Huttenlocher 
和 Ullman (1988) 提出 的 弱 透 视 投影 模型 。 这 是 一 种 很 好 的 近似 方法 ， 并 且 推 导 过 程 十 分 有 
建设 性 。Fischler 和 Bolles (1981) 第 一 次 正式 定义 并 且 研 究 了 N 点 透视 问题 ， 并 且 给 出 了 P3P 
封闭 形式 的 解 。 他 们 同时 说 明了 如 何 使 用 这 种 方法 : 首先 假设 N 个 对 应 点 ， 计 算出 目标 位 姿 ， 
然后 证 明 其 他 模型 点 在 图 像 上 可 以 找到 对 应 点 。 他 们 把 这 个 算法 称 为 RANSAC， 因 为 是 随机 
选择 对 应 点 。 如 果 能 够 得 到 特征 点 的 属性 ， 就 应 该 避免 这 种 随机 性 。 

最 近 几 年 里 在 实验 室 受 控 环 境 下 ， 人 们 在 根据 多 幅 视 图 建立 物体 3D 模 型 方面 做 了 大 量 的 
工作 ， 开 发 出 了 很 多 系统 和 程序 。 我 们 的 目标 重建 系统 是 由 Pulli 等 人 (1998) 在 华盛顿 大 学 
开发 的 。 
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第 14 章 ”3D 模 型 和 匹配 


无 论 是 计算 机 视觉 还 是 计算 机 图 形 学 都 要 用 到 3D 目 标的 模型 。 计 算 机 图 形 学 中 ， 目 标 必 
须 用 便于 绘制 和 显示 的 结构 表示 出 来 。 
最 常见 的 结构 是 3D 网 格 结构 ， 它 是 由 3D 
点 和 连接 这 些 点 的 边 构成 的 多 边 形 集合 。 
与 图 形 相关 的 硬件 一 般 都 支持 网 格 表 示 。 
对 于 更 平滑 和 更 简单 的 表面 ， 其 他 图 形 
表示 方法 还 有 二 次 曲面 、B 样 条 表面 和 细 
分 表面 。 除 了 3D 形 状 信息 外 ， 图 形 表 示 
还 可 以 包含 颜色 和 纹理 信息 ， 然 后 通过 
图 形 硬件 把 这 些 信息 纹理 映射 到 被 绘制 
的 目标 。 图 14-1 显 示 的 是 玩具 狗 的 粗略 3D 网 格 模型 ， 以 及 相同 视点 的 纹理 映射 绘制 图 像 。 

对 于 计算 机 视觉 来 说 ， 目 标 表示 必须 符合 目标 识别 的 要 求 ， 这 意味 着 目标 表示 和 从 图 像 
中 抽取 的 特征 之 间 必须 有 一 定 的 对 应 关系 。3D 目 标识 别 中 有 几 种 常用 的 图 像 类 型 ， 如 灰 度 图 
像 、 彩 色 图 像 和 深度 图 像 。 经 常 需要 把 灰 度 图 像 或 彩色 图 像 配 准 到 深度 数据 ， 这 样 可 以 给 识 
别 算法 提供 更 丰富 的 特征 集 。 大 多 数 3D 目 标 算法 只 是 为 特定 的 表示 设计 的 ， 并 不 能 推广 到 处 
理 不 同 的 特征 。 因 此 在 讨论 3D 目 标识 别 前 ， 有 必要 了 解 一 下 通用 的 表示 方法 。 总 的 来 说 ， 几 
何 表示 要 用 到 点 、 线 和 面 等 ; 图 符 表示 要 用 到 基 元 成 分 以 及 它们 之 间 的 空间 关系 ; 功能 表示 
要 用 到 功能 部 件 以 及 部 件 间 的 功能 关系 。 我们 首先 讨论 3D 目 标 表示 的 最 常用 方法 ， 然 后 介绍 
常见 目标 识别 算法 中 用 到 的 表示 方法 。 
14.1 模型 表示 

计算 机 视觉 开始 于 Robert 在 1965 年 进行 的 多 面体 识别 工作 ， 其 中 使 用 了 简单 的 线 框 模型 ， 
以 及 与 从 图 像 中 的 直线 段 进行 匹配 。 基 于 线段 的 模型 今天 仍然 很 流行 ， 但 也 有 其 他 一 些 模型 
能 更 精确 地 表示 曲面 甚至 任意 表面 的 目标 数据 。 本 节 我 们 研究 网 格 模型 、 表 面 - 边 - 顶点 模型 、 
体 素 和 八 又 树 模型 、 广 义 圆柱 体 模型 ， 超 二 次 曲面 模型 以 及 可 变形 模型 、 还 要 考虑 真正 3D 模 
型 和 特征 - 视 模型 的 不 同 之 处 ， 特 征 - 视 模型 用 一 组 2D 视 图 来 表示 3D 目 标 。 
14.1.1 3D 网 格 模型 

3D 网 格 是 一 种 简单 的 几何 表示 ， 通 过 相连 的 顶点 和 边 构成 3D 空 间 多 边 形 来 描述 目标 。 任 
意 多 边 形 可 构成 任意 结构 的 网 格 。 由 类 型 相同 的 多 边 形 构成 的 网 格 是 规则 网 格 (regular mesh). 
常用 的 三 角形 网 格 (triangular mesh) 全 部 由 三 角形 组 成 ， 图 14-1 就 是 一 个 三 角形 网 格 。 网 格 
可 以 用 不 同 的 分 辩 率 表示 目标 物体 ， 从 粗略 估算 到 很 高 的 细节 分 辨 均 可 。 图 14-2 显 示 同 一 条 
狗 不 同 分 辩 率 的 三 个 网 格 模型 。 它 们 可 用 于 图 形 绘制 或 者 利用 深度 数据 进行 目标 识别 。 当 用 
于 识别 时 ， 要 定义 特征 抽取 算 子 ， 目 的 是 从 用 于 匹配 的 深度 数据 中 抽取 特征 。 在 第 14.4.1 节 对 
这 些 特征 进行 讨论 。 





图 14-1 玩具 狗 的 3D 网 格 模型 和 纹理 映射 绘制 图 像 (Kari 
Pulli 提 供 ) 
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图 14-2 不 同 分 辩 率 的 小 狗 网 格 模型 (Kari Pulli 提 供 ) 


14.1.2 表面 - 边 - 顶 点 模型 

因为 早期 的 3D 视 觉 系 统 大 多 处 理 多 边 形 目标 ， 在 识别 或 位 姿 估 计 中 ， 边 就 成 了 主要 的 局 
部 特征 。 仅 由 目标 的 边 和 顶点 组 成 的 3D 目 标 模型 ， 称 为 线 框 (wire-frame) 模型 。 线 框 表示 
中 ,假设 目标 表面 是 平面 并 且 目 标 只 含 直线 边 。 

线 框 模型 广泛 应 用 于 计算 机 视觉 中 ， 它 的 一 个 推广 形式 是 表面 - 边 - 顶 点 (surface-edge- 
vertex) 模型 。 表 面 - 边 -顶点 表示 是 一 个 数据 结构 ， 包 括 目标 的 顶点 、 表 面 和 边 ， 通 常 还 包 
括 一 些 拓 扑 关 系 ， 说 明 表 面 在 边 哪 一 侧 ， 以 及 顶点 在 边 的 哪 一 端 。 当 目 标 是 多 边 形 的 时 ， 表 
面 是 平面 ， 边 是 直线 段 。 这 个 模型 也 可 以 推广 到 包含 曲 边 和 曲面 。 

图 14-3 举 例 说 明了 表面 - 边 -顶点 数据 结构 ， 它 在 3D 目 标识 别 系 统 中 表示 目标 模型 的 数据 
库 。 这 个 数据 结构 是 分 层 的 ， 最 高 层 是 世界 ， 然 后 不 断 向 下 到 晤 低层 的 表面 和 弧 。 图 14-3 的 
方 框 中 带 标记 的 字段 [name，type，《entity》，transf] ， 表 示 (entity) 类 集合 中 的 元 素 。 集 合 
中 的 每 个 元 素 都 有 名 字 、 类 型 、 指 向 《entity〉 的 指针 和 3D 变 换 ， 对 (entity》 进 行 3D 变 换 将 
产生 一 个 旋转 和 平移 实例 。 例 如 世界 有 一 个 object 集 合 ， 在 这 个 集合 中 命名 了 不 同 的 3D 目 标 
模型 实例 。 任 何 给 出 的 目标 模型 都 在 自己 的 坐标 系 中 进行 了 定义 。 通 过 变换 可 以 单独 确定 实 
例 在 世界 坐标 系 中 的 位 置 。 

每 个 目标 模型 都 包括 三 个 集合 : 边 、 顶 点 和 面 。 顶点 有 一 个 相关 的 3D 点 和 相交 于 此 点 的 
边 的 集合 。 边 有 起 点 、 终 点 、 左 边 的 面 、 右 边 的 面 ， 如 果 不 是 直线 边 ， 还 要 有 一 条 弧 定 义 边 
的 形态 。 面 有 一 个 定义 其 形状 的 表面 和 包含 其 外 边界 和 孔 边界 的 边界 集合 。 边 界 有 一 个 相关 
的 面 和 边 的 集合 。 这 里 没有 定义 最 低层 的 实体 一 弧 、 表 面 和 点 。 表面 和 弧 的 表示 与 应 用 背景 
以 及 所 需 的 精度 与 平滑 性 有 关 。 它 们 可 以 用 公式 表示 ， 或 者 进一步 分 解 为 表面 片 和 弧 段 。 点 
仅仅 是 坐标 为 (x，y，z) 的 向 量 。 

图 14-4 显 示 一 个 简单 的 3D 物 体 ， 可 用 表面 - 边 - 顶点 方式 进行 表示 。 为 了 简单 起 见 ， 只 讨 
论 几 个 可 视 表面 和 边 。 可 视 表 面 是 F1、F2、F3、F4 和 F5， 其 中 F1、F3、F4 和 F5 是 平面 ，F2 
是 圆柱 面 。F1 可 用 一 条 圆 弧 表示 的 边 确定 边界 。 F2 需 要 两 条 这 样 的 边界 线 确定 。F3 的 边界 由 
四 条 直 边 组 成 的 外 边界 和 一 条 圆 弧 构成 的 孔 边 界 确定 。F4 和 F5 的 边界 都 由 四 条 直 边 组 成 的 音 
一 类 型 边界 线 确定 。 边 El 把 面 F3 和 F5 分 开 。 如 果 把 顶点 V1 作为 边 的 起 点 ，V2 为 终点 ， 那 么 
F3 是 这 条 边 的 左面 ，F5 是 右面 。 顶 点 V2 有 三 条 相关 联 的 边 即 El1、E2 和 E3。 





表面 - 边 - 顶 点 结构 
使 用 图 14-3 的 表示 法 ， 构 造 图 14-4 所 示 目 标的 整体 模型 ， 对 3D 目 标的 每 个 面 、 边 及 顶点 
进行 命名 ， 并 在 结构 中 使 用 这 些 名 字 ， 
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图 14-3 表面 - 边 - 顶 点 数据 结构 
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图 14-4 平面 和 圆柱 面 组 成 的 3D 上 有 目标 


14.1.3 广义 圆柱 体 模 型 

广义 圆柱 体 (generalized cylinder) 是 一 种 体积 基 元 ， 用 一 条 空间 曲线 轴 和 轴 上 各 点 处 的 
截面 函数 进行 定义 。 截 面 沿 轴 向 密 排 形 成 旋转 体 。 例 如 一 般 圆柱 体 是 广义 圆柱 体 ， 它 的 轴 是 
直线 段 ， 截 面 是 半径 恒定 的 圆 ; 圆锥 体 是 广义 圆柱 体 ， 它 的 轴 是 直线 段 ， 截 面 是 圆 ， 其 半径 
从 轴 的 一 个 端点 以 零 开 始 增长 ， 在 另 一 个 端点 达到 最 大 值 ; 长 方 体 是 广义 圆柱 体 ， 它 的 轴 是 
直线 段 ， 截 面 是 相同 的 矩形 ; 圆 环 体 是 广义 圆柱 体 ， 它 的 轴 是 圆 ， 截 面 是 相同 的 圆 。 

目标 的 广义 圆柱 体 模型 ， 包 括 广 义 圆柱 体 描述 、 广 义 圆 柱 体 间 的 空间 关系 以 及 目标 的 全 
局 特性 。 圆 柱 体 可 以 用 轴 长 度 、 平 均 截 面 宽度 、 两 底面 之 比 以 及 锥 角 进 行 描述 。 连 接 关 系 是 
最 常见 的 空间 关系 。 除 了 端点 连接 关系 外 ， 圆 柱 体 之 问 也 可 能 连 在 一 起 ， 使 得 一 个 圆柱 体 的 
端点 成 为 另 一 个 圆柱 体 的 内 部 点 。 在 这 种 情况 中 ， 可 以 用 连接 参数 来 描述 这 种 连接 关系 ， 如 
圆柱 体 相 接 触 的 位 置 、 倾 角 以 及 描述 一 个 绕 另 一 个 旋转 的 环绕 角 。 目 标的 全 局 特性 可 能 包括 
圆柱 体 块 数 、 细 长 圆柱 体 块 数 和 连接 的 对 称 性 。 也 可 以 用 分 层 的 广义 圆柱 体 模型 ， 其 中 在 不 
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同 层 上 表示 不 同 细节 的 模型 。 例 如 可 把 人 体 粗 略 建 模 为 棒状 图 (如 图 14-5 所 示 )， 由 表示 头 部 、 


躯干 、 手 臂 和 腿 部 的 圆柱 体 组 成 。 在 下 一 层 ， 躯 干 可 能 分 为 脖子 
和 躯干 部 分 ; 手臂 可 分 为 三 个 圆柱 体 ， 分 别 表示 上 臂 、 前 臂 和 
手 ; 腿 也 类 似 。 再 下 一 层 ， 手 可 以 分 为 手掌 和 五 根 手指 ， 继 续 分 
的 化 ， 手 指 可 以 分 为 三 节 ， 当 然 拇指 是 两 节 。 


f 
A N 


三 维 广义 圆柱 体 投影 到 图 像 中 会 产生 两 种 不 同 的 二 维 效果 ， 即 dle 


条 带 和 椭圆 。 条 带 (ribbon) 是 圆柱 体 长 度 方向 的 投影 ， 而 椭圆 
(ellipse) 是 截面 的 投影 。 当 然 截 面 不 一 定 是 圆 ， 所 以 投影 也 不 一 
定 是 椭圆 。 某 些 广义 圆柱 体 是 完全 对 称 的 ， 所 以 没有 长 短 之 分 。 对 


图 14-5 人 体 的 广义 圆柱 体 
粗略 模型 。 虚 线 表 
示 圆 柱 体 的 轴 


这 种 情况 ， 现 在 有 算法 能 够 从 建 模 目 标的 图 像 中 寻找 条 带 。 这 些 算 
法 一 般 是 寻找 含有 轴 信 息 的 长 形 区 域 。 图 14-6 显 示 从 2D 形 状 确定 广义 圆柱 体 曲线 轴 的 过 程 。 


iN 


图 14-6 从 2D 形 状 构造 广义 圆柱 体 (Gerard Medioni# {tt ) 


图 14-7 显 示 的 是 ， 为 了 制作 合身 的 衣 
服 而 建立 特定 人 体 精 细 模 型 的 步 又。 在 特 
定 的 测量 环境 中 进行 ， 还 要 从 12 个 摄像 头 
得 到 输入 图 像 。6 个 摄像 头 均匀 分 布 在 2m 
的 圆柱 体 空间 ， 拍 摄 人 体 图 像 。 其 中 一 套 
安装 位 置 较 低 ， 另 一 套 安 装 位 置 较 高 ， 这 
样 就 可 以 拍摄 2m 高 的 人 体 。 如 图 14-7 所 
示 ， 从 6 个 摄像 头 得 到 的 侧面 轮 廊 用 于 拟 
合 椭圆 截面 ， 从 而 获得 圆柱 体 模型 。 除 了 
要 计算 侧面 轮廓 上 的 点 外 ， 还 要 使 用 栅 格 
光线 通过 三 角 测 量 计算 3D 表 面 上 的 点 。 
用 结构 光 数 据 算出 凹陷 处 的 有 关 数 据 ， 最 
终 算 出 精细 的 三 角 网 格 模型 。 


习题 14.2 广义 圆柱 体 模型 


构造 飞机 的 广义 圆柱 体 模型 。 飞 机 要 
有 机 身 、 机 可 和 机 尾 。 每 个 机 可 上 都 应 附 
着 一 个 发 动机 。 尝 试 描述 广义 圆柱 体 之 间 
的 连接 关系 。 
14.1.4 八 又 树 

ASH (octree) 是 分 层次 的 八 叉 树 
结构 。 树 中 的 每 个 节点 对 应 一 个 立方 体 区 
域 。 如 果 立 方 体 完全 包含 于 三 维 目标 中 ， 





图 14-7 为 了 制作 合身 的 服装 而 建立 人 体 模型 的 步 嗓 。 


(上 图 ) 三 条 截面 轮廓 曲线 ， 数 据 来 自 6 个 摄像 
头 所 拍 的 图 像 (直线 表示 侧面 到 摄像 头 的 投影 
范围 )。 结 构 光 特征 使 我 们 能 够 算出 凹陷 处 的 
3D 点 位 置 。( 底 部 ) 把 椭圆 截面 与 6 个 侧面 轮廓 
拟 合 形成 的 广义 圆柱 体 模型 ， 三 角形 网 格 图 和 
泻 染 后 的 图 像 (由 Helen Shen 和 香港 科技 大 学 计 
算 机 科学 系 的 同事 提供 。 项 目 得 到 香港 工业 技 
术 发 展 委员 会 AF/183/97 资 助 ， 中 国 SAR 1997) 
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那么 对 应 节点 标记 为 full; 如 果 立 方 体 不 包含 目标 的 任何 部 分 ， 则 标记 为 empty; 如 果 立 方 体 
部 分 地 与 目标 相交 ， 则 标记 为 partial。 标 记 为 ful! 或 empny 的 节点 没有 子 节点 ; 标记 为 partial 的 
节点 有 八 个 子 节点 ， 分 别 代表 这 个 立方 体 的 八 个 部 分 。 

可 用 2 x 2" x 2 三 维 数组 表示 三 维 目标 ， 其 中 x 是 整数 。 数 组 的 元 素 称 为 体 素 (voxel)， 其 
值 为 1 ( 满 ) 或 0 ( 空 )， 表 示 目 标 存在 或 者 不 存在 。 目 标的 八 又 树 编码 等 价 于 三 维 数组 表示 ， 
但 通常 需要 更 少 的 空间 。 图 14-8 给 出 了 目标 和 它 的 八 又 树 编码 的 简单 示例 ， 其 中 使 用 的 是 
Jackins 和 Tanimoto (1980) 的 八 分 编号 方式 。 





目标 


FFFF EEFF 





FFFF EEFF 


FFFF EEFF 


八 又 树 


图 14-8 三 维 目标 及 其 八 又 树 编码 的 示例 


SS RRS ene RRR SRO OEE 





图 14-11 显 示 一 把 椅子 的 两 幅 视图 。 构造 这 把 椅子 的 八 又 树 模型 。 假定 座 和 靠背 都 是 
4voxels x 4voxels x 1voxel， 每 条 腿 是 3voxels x 1voxel x lvoxel, 
14.1.5 超 二 次 曲面 模型 

超 二 次 曲面 模型 最 初 是 用 在 计算 机 图 形 学 方面 ， 后 来 经 Pentland 引 入 到 计算 机 视觉 领域 。 
可 以 直观 的 把 超 二 次 曲面 看 作 粘土 块 ， 能 够 通过 变形 和 粘 合 形成 目标 模型 。 数 学 上 ， 超 二 次 
曲面 构成 形状 的 参数 化 族 。 超 二 次 曲面 可 以 用 向 量 S 定 义 ， 其 x、 y 和 z 元 素 分 别 是 角度 nn 和 @ 的 
ra, AAFP: 

aicose (n)COS® (wy) 


x 
S(n, œ) = | | = jason sinea) | (14-1) 


z a3Sin*! (n) 
其 中 E < n< =i “ES OO<T。 参 数 w、0 和 aa 分别 表 示 超 二 次 曲面 在 zx、y 和 z 方 向 的 尺寸 。 
参数 es 、& 表 示 在 经 度 面 和 纬度 面 上 的 方 度 。 
超 二 次 曲面 可 以 表示 建筑 物 的 某 些 部 分 ， 比如 球体 、 椭 球体 、 圆 柱 体 、 平 形 六 面体 和 中 


间 部 分 的 形状 。 当 ea 和 :都 是 1 时 ， 生 成 的 表面 是 椭 球 表面 ; 如 果 a = a= 0a， 则 是 球面 。 当 
€ <1 Alle, = 1 时 ， 生 成 的 表面 是 圆柱 体 表面 。 
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超 二 次 曲面 不 仅 能 够 表示 出 完美 的 几何 形状 模型 ， 而 且 能 够 表示 变形 后 的 几何 形状 ， 如 经 
i #40 (tapering) 和 弯曲 (bending) 变形 的 几何 形状 。 沿 着 z 轴 的 线性 锥 化 由 以 下 变换 给 出 : 


FE K AK Sko ky < 1) 分 别 是 zx 和 ?平面 关于 z 方 向 的 锥 化 参数 。 弯 曲 变形 由 以 下 变换 定义 : 
x’ =x+cos(a)(R—7r), 
y = y +sin(æ)(R — r), 
z =sin(y)(7 —r) 
其 中 k 是 曲率 ，r 是 x 和 ly 元 素 在 弯曲 平面 z-r 上 的 投影 ， 由 以 下 公式 给 出 : 
r =cos (a —tan 7! (=)) vx? +9", 


R 是 "的 变换 ， 由 以 下 公式 给 出 : 
R=k"! —cos(y)(k7! — r), 
) 是 弯曲 角度 
y =z", 
超 二 次 曲面 模型 主要 用 来 拟 合 深度 数据 ， 目 前 已 有 几 种 表面 拟 合 的 超 二 次 曲面 参数 恢复 
方法 。 图 14-9 用 超 二 次 曲面 拟 合 心脏 左 心室 5 个 时 刻 的 3D 数 据 。 这 些 是 带 参 数 函 数 的 二 次 曲面 
扩展 模型 ,其 中 参数 不 是 常数 而 是 函数 。 





图 14-9 心脏 收缩 过 程 中 ，5 个 时 刻 的 左 心室 拟 合 模型 ， 使 用 了 带 参数 函数 的 超 二 次 
曲面 扩展 模型 (Jinah Park 和 Dimitris Metaxas 提 供 ) 


14.2 实际 3D 模 型 与 视 类 模型 

上 述 的 目标 表示 中 ， 强 调 的 都 是 目标 的 三 维 性 质 ， 而 忽视 了 根据 任意 视点 2D 图 像 进 行 目 
标识 别 的 问题 。 多 数目 标 从 不 同 视点 观看 ， 其 结果 是 不 同 的 。 圆 柱 体 从 一 个 视点 看 可 以 投影 
为 条 带 (参见 14.1.3 节 )， 从 另 一 个 视点 看 又 可 以 投影 为 椭圆 。 一 般 来 讲 ， 视 点 空间 可 以 划分 
BALK (view classe) (又 称 为 特征 视 ) 的 有 限 集合 ， 每 个 视 类 表示 具有 相同 属性 的 视点 的 集 
合 。 这 个 属性 可 以 是 从 这 些 视点 能 看 到 的 目标 相同 表面 ， 或 者 是 能 看 到 的 相同 线段 ,或 者 关 
系 结构 间 的 相关 距离 足够 小 ， 其 中 关系 结构 是 从 这 些 视点 的 线条 图 中 抽取 的 (参见 第 11 音 )。 
将 产生 具有 拓扑 同 构 性 线条 图 的 视点 分 为 一 组 ， 图 14-10 显 示 确定 出 的 几 个 立方 体 视 类 。 图 
14-11 显 示 椅 子 的 两 幅 视图 ， 其 中 大 部 分 可 见面 是 相同 的 面 。 利 用 由 区 域 基 元 确定 的 视图 间 的 
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相关 距离 ， 以 及 与 封闭 性 有 关 的 区 域 邻接 关系 ， 可 以 通过 聚 类 算法 将 这 些 视图 分 为 一 类 。 许 
多 不 同 但 类 似 的 视图 构成 一 个 视 类 ， 视 图 的 


数量 应 该 是 无 限 的 。 关 键 是 一 旦 确定 了 目标 

的 正确 视 类 ， 为 计算 位 姿 所 做 的 对 应 匹配 运 

算 就 有 了 较 强 的 约束 ， 而 且 是 二 维 匹配 。 l 
视 类 由 Koenderink 和 van Doorn (1979) 


Class 1 Class 2 Class 3 
提出 。 他 们 把 提出 的 结构 称 为 表象 图 Bir 2 
(aspect graph)。 从 一 组 相连 的 视点 看 到 的 有 图 14-10 立方 体 的 三 个 视 类 ， 将 产生 拓扑 同 构 性 线 


条 图 的 视点 分 为 一 类 
本 质 差异 的 目标 视图 ， 就 称 为 表象 (aspect ) 。 


表象 图 的 节点 表示 表象 ， 相 邻 表 象 间 用 弧 线 
连接 。 两 表象 边界 上 的 外 观 变化 称 为 视觉 事 
件 (visual event)。 自 动 构造 表象 图 的 算法 
出 现 于 80 年 代 后 期 ,但 由 于 实际 目标 的 结构 
非常 庞大 ， 所 以 这 些 算法 并 未 广泛 用 于 目标 


识别 。 相 反 ， 视 类 或 者 特征 视 的 概念 得 到 广 图 14.11 属于 同一 视 类 的 两 幅 椅 子 视图 ， 根 据 低 层 
泛 使 用 。 


图 14-11 的 两 幅 椅 子 视图 属于 三 维 目标 的 同一 视 类 。 画 出 椅子 更 常见 的 三 个 视 类 。 


14.3 物理 学 模型 和 可 变形 模型 

物理 学 模型 (physics-based model) 可 用 来 建立 被 拍摄 物理 目标 的 外 观 模型 和 行为 模型 。 
本 节 所 给 的 例子 中 ， 一 个 是 人 类 心脏 模型 (参见 图 14-16)， 一 个 是 电话 听 简 模型 (参见 图 14- 
15)。 可 利用 物理 学 原理 建立 实际 物理 系统 的 模型 ， 或 者 用 来 模拟 图 像 分 析 任务 。 建 立 心脏 模 
型 ， 目 的 是 模拟 目标 随时 间 的 形状 变化 和 行为 变化 ， 从 而 了 解 心脏 的 活动 情况 ; 建立 电话 听 
简 模型 ， 目 的 是 获得 静态 测量 的 网 格 模 型 。 

与 物理 学 模型 密切 相关 的 一 个 术语 是 可 变形 模型 (deformable model)。 后 者 强调 建立 目 
标 形状 的 变化 模型 。 

物理 学 模型 和 可 变形 模型 近期 进展 很 快 。 这 两 个 方向 无 论 是 在 理论 方面 还 是 在 应 用 方面 
都 有 很 丰富 的 研究 内 容 ， 它 们 比 本 书 所 涉及 的 内 容 要 复杂 得 多 。 这 里 只 做 简单 介绍 ， 主 要 目 
的 是 让 大 家 对 该 领域 有 所 了 解 ， 并 在 课外 主动 阅读 最 新 发 表 的 文献 。 
14.3.1 蛇 形 活动 轮廓 模型 

多 数 人 都 曾 把 橡皮 筋 套 在 伸 出 的 手指 上 。 手 指 可 以 看 作 2D 空 间 中 的 五 个 点 ， 橡 皮 筋 则 是 
通过 五 个 点 的 封闭 轮 廊 。 橡 皮 筋 的 行为 可 以 看 作 是 活动 轮 廊 (active contour)， 活 动 轮廓 在 图 
像 中 向 最 小 能 量 状态 的 方向 运动 。 橡 皮 筋 趋 于 收缩 以 释放 存储 的 能 量 ， 直 到 遇 到 支撑 (手指 ) 
为 止 。 图 14-12 ( 右 ) 说 明了 这 个 原理 。 深 色 小 区 域 好 比 我 们 的 手指 ， 这 些小 区 域 阻 挡 了 橡皮 
筋 的 收缩 。 另 一 方面 ， 橡 皮 筋 不 会 无 限 收 缩 ， 即 使 只 有 一 个 点 (或 线 ) 阻挡 ， 橡 皮 筋 也 会 均 
匀 缠 绕 在 该 点 周围 。 在 模拟 过 程 中 能 够 限制 高 度 弯 曲 。 图 14-12 (E) 显示 气球 膨胀 时 将 会 出 
现 的 情况 ， 其 中 手指 像 抓 球 一 样 把 气球 抓 在 手中 。 类 似 的 ， 可 以 设想 一 个 虚拟 气球 在 图 像 区 
域 或 图 像 点 内 膨胀 。 
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图 14-12 说 明了 活动 轮廓 的 一 个 重要 优点 : 尽管 要 拟 合 的 数据 被 分 成 片段 ， 但 轮廓 结构 仍 
然 是 完整 的 。 更 进一步 ， 也 可 以 得 出 其 他 Ja 


特性 ， 如 平滑 性 、 周 界 范围 和 简单 曲线 的 a —~ 
特性 。 现 在 简单 介绍 如 何 用 计算 机 算法 模 e 了 Fi , 4 uh 
拟 活动 轮廓 的 行为 。 =. e : @ 

为 了 模拟 活动 轮廓 的 行为 ， 首 先 需要 ¢ pare tale A 


一 个 存储 器 状态 以 确定 轮廓 的 结构 和 位 a” oS fy 
置 。 考 虑 简单 情况 ， 在 时 刻 :， 有 确定 的 N ~ @ RD 
点 集合 ， 每 个 点 位 于 已 ,， 与 邻 点 P_，, 和 
P, ,1 ,相连 成 环形 。 对 于 虚拟 的 橡皮 筋 ， 
每 个 点 受到 来 自 两 邻 点 的 拉力 ， 使 点 P;, 加 
速 移动 到 新 位 置 P,，, ,。 图 14-13 ( 左 ) 说 
明了 这 一 点 。 一 般 认 为 每 个 点 都 有 单位 质量 ， 这 样 很 容易 算出 由 力 产生 的 加 速度 。 由 加 速度 
可 算出 速度 ， 由 速度 可 算出 位 置 。 因 此 ， t 请 
时 刻 存储 器 状态 还 应 该 包括 每 个 点 的 加 束 Pp, Pieni f 


度 和 速度 ， 而 且 在 仿真 的 初始 状态 这 些 加 人 
速度 和 速度 可 以 不 为 零 。 还 需要 另 一 个 数 { . 


据 成 员 ， 即 布尔 变量 ， 用 它 指 明 是 否 因 磁 o Phot 
到 数据 点 ( 称 为 硬 约 束 (hard constraint) Pi Overs 
而 使 该 点 的 运动 停止 。 当 然 除了 活动 轮廓， wi ius 
还 需要 存储 要 建 模 的 数据 ， 可 能 是 灰 度 图 e) pi EES, Wig TAEZ) 
像 、2D 边 缘 点 集 、3D 表 面 点 集 等 ， 其 表 (A) 气球 上 某 点 的 膨胀 力 ， 如 果 超 过 来 自 令 点 的 弹力 ， 就 
示 方 式 可 以 用 本 章 、 第 2 章 或 第 10 章 中 介 使 该 点 趋 于 向 外 运动 
绍 的 方法 。 

活动 轮廓 上 点 运动 的 简单 算法 见 算法 14.1。 除 非 轮廓 点 遇 到 硬 约束 或 受到 的 合力 为 零 ， 否 
则 轮廓 点 会 一 直 运 动 。 算 法 可 能 永 不 终止 ， 例 如 用 活动 轮廓 跟踪 正在 讲话 的 两 片 嘴唇 时 ! 注 
意 需要 有 轮廓 的 初始 位 置 。 


算法 14.1 轮廓 上 的 点 P 移动 到 下 一 个 位 置 已 ,1 的 更 新 步骤 
输入 : 1 时 刻 N 个 数据 点 ; 每 个 已 都 有 速度 V, 和 加 速度 A) , 
输出 : t+1 时 刻 入 个 数据 点 ;每 个 Pj ,,, 都 有 速度 V; ,和 加 速度 4 ,, 1。 
时 间 间 隔 Ar， 对 每 个 未 因 硬 约束 而 停止 的 点 已 ,进行 计算 : 

1. AP, 的 邻 点 计算 忆 ,所 受 的 合力 。 

2. 用 合力 计算 加 速度 向 量 4) ,,,。 

3. 计算 速度 Vi 1 = Vj, +A; Ate 

4. 计算 新 位 置 已 ,, ,= P+ VAt. 
5. WAP, i 在 数据 点 的 允许 范围 内 ， 就 锁定 这 个 位 置 。 

算法 14.1 是 欧 拉 算 法 的 一 个 简单 步骤 。 对 于 很 小 的 时 间 间 隔 , 欧 拉 算法 根据 力 计算 加 速度 ， 

根据 加 速度 计算 速度 ， 根 据 速度 计算 位 置 。 当 运动 点 遇 到 数据 点 、 边 或 面 片 时 ， 它 的 位 置 就 


图 14-12 
(Ae) 2D 气 球 或 活动 轮廓 膨胀 以 吻合 2D 数 据点 
CE) 2D 橡 皮 筋 在 2D 数 据点 外 仲 展 
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固定 下 来 。 该 算法 的 计算 代价 一 般 很 大 ， 因 为 为 了 寻找 这 样 的 点 需要 对 数据 结构 或 图 像 进行 
搜索 。 

胡 克 定律 建立 了 弹簧 模型 ， 它 是 物理 学 模型 的 常用 组 成 部 分 。 假 设 自然 长 度 是 的 弹簧 连 
接点 Pj 和 点 Pi。 作 用 在 P; 上 的 力 F 与 弹簧 的 伸 长 量 (压缩 量 ) 成 正比 。 
IP; — Pl 





F = =k (lP; — Pl — L) (14-2) 
这 作为 前 面 攀 皮 筋 的 模型 足够 了 。 如 果 弹 得 系统 无 限 振荡 ， 就 应 该 添加 一 个 阻力 。 剩 下 的 问 
题 就 是 确定 合适 的 长 度 L。 如 果 建 立 已 知 目标 的 模型 ， 如 正在 讲话 的 嘴 居 ， 那 么 就 能 够 确定 入 、 
L 和 的 实际 值 。K, 是 刚度 系数 ， 它 表示 力 与 形变 的 关系 。 


能 量 最 小 化 公式 * 

尽管 以 前 有 人 用 过 话 动 轮廓 的 概念 ， 但 Kass、Witkin 和 Terzopoulos1987 年 的 论文 茹 起 了 
计算 机 视觉 领域 对 活动 轮廓 的 兴趣 。 上 面 的 多 数 讨论 参考 了 他 们 称 为 “snake” 的 活动 轮廓 思 
想 。 用 话 动 轮廓 对 数据 进行 拟 合 是 一 个 最 优化 问题 ， 即 寻找 服从 某 些 硬 约束 的 最 小 能 量 边界 。 
一 种 实验 方法 是 把 如 下 三 部 分 之 和 做 为 总 能 量 : (1) 内 部 轮廓 能 量 (internal contour energy), 
由 轮廓 本 身 的 拉 伸 和 弯曲 决定 ; (2) 图 像 能 量 (image energy )， 它 说 明 轮 廊 与 图 像 亮 度 和 梯 
度 的 拟 合 程度 ; (3) 外 部 能 量 (external energy)， 由 约束 力 产 生 。 约 束 信息 由 用 户 以 交互 的 
方式 提供 ， 或 者 由 更 高 级 的 计算 机 视觉 处 理 过 程 提 供 。 

用 se [0, 1] 作 为 参数 的 轮廓 表示 为 v(s)=[x(s)，y(s)] ， 它 是 实际 变量 s 的 函数 。 问 题 是 要 找到 
这 样 的 函数 使 如 下 定义 的 能 量 最 小 。 


1 
E sonour = [Ener + E mage +E, )ds ( 14-3 ) 


Eimemat = o(s)|v'(s)|* + BO GP (14-4) 


在 每 个 点 和 活动 轮 廊 间 的 距离 平方 上 加 上 Eis， 可 以 控制 活动 轮 廊 在 某 些 指 定点 附近 
通过 。Eiwse 只 是 活动 轮廓 上 的 点 与 最 近 边 缘 点 间 的 距离 平方 的 和 。 内 部 能 量 的 定义 更 加 有 趣 。 
Eiwemal 的 第 一 部 分 限制 小 轮廓 线段 长 度 的 较 大 变化 ， 因 为 较 低 的 能 量 意味 着 长 度 变化 较 小 。 第 
二 部 分 限制 曲率 的 大 小 。 权 重 函 数 a(s) 和 B(s) 起 调和 作用 ， 也 允许 形成 尖 角 ， 或 在 柔和 纹理 上 
产生 长 纹理 跳 变 。 

活动 轮廓 对 图 像 的 拟 合 可 用 机 可 或 独 木 舟 的 制造 情况 进行 说 明 。 图 14-14 中 ， 要 把 一 根木 
条 按 一 定 间隔 杀 到 横 杆 上 ， 而 横 杆 固定 在 硬 辟 上 。 木 条 平滑 弯曲 以 适应 横 杆 的 空间 分 布 ， 这 
样 就 形成 光滑 但 可 能 复杂 的 一 条 曲线 。 与 横 
杆 接触 相当 于 硬 约束 。 因 为 木 条 在 很 多 点 上 
分 配 弯 曲 能 量 ， 这 样 就 避免 出 现 高 曲率 情况 。 
通过 计算 机 算法 可 以 很 容易 生成 这 样 的 样 条 T 
曲线 ， 实 际 上 图 14-14 就 是 用 xfig 工 具 中 的 算 - 
法 生成 的 。 piek 


轮廓 能 量 最 小 化 的 方法 已 经 超出 了 本 书 图 14-14 HE LARERE OC 
的 讨论 范围 。 要 控制 好 活动 轮 廊 需要 认真 进 样 条 用 xfig 得 到 ) 
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行 数值 编程 。 可 以 使 用 专业 有 限 元 数值 分 析 软 件 包 。1987 年 之 后 ， 有 些 研究 工作 采用 了 动态 
规划 方法 ， 代 赫 Kass 等 人 (1987) 提出 的 尺度 空间 方法 。 感 兴趣 的 读者 可 以 在 参考 文献 中 找 
到 很 多 有 意思 的 研究 工作 。 
14.3.2 3D 气 球 模型 

气球 模型 可 以 是 近似 球体 的 网 格 模型 。 大 多 数 英 式 足球 由 12 块 五 边 形 或 者 20 块 六 边 形 构 
成 ， 这 些 形状 可 以 划分 成 三 角形 。 三 角形 的 边 可 以 采用 弹簧 模型 ， 这 样 通过 扩展 或 者 收缩 能 
够 改变 整个 系统 的 形状 。 图 14-15 显 示 这 样 的 球体 模型 ， 模 型 通过 从 内 部 扩展 3D 数 据点 云 而 构 
成 ,这 些 点 是 电话 听 简 的 测量 数据 。 当 某 个 顶点 接触 到 测量 数据 时 ， 算 法 就 锁定 该 顶点 的 位 
置 。 脱 胀 力作 用 于 每 个 顶点 ， 基 方向 由 内 向 外 沿 着 表面 法 线 指向 顶点 。 为 了 检测 与 测量 数据 
的 接触 情况 ， 只 需 沿 着 法 线 方向 搜索 数据 。 当 膨胀 三 角形 变 得 足够 大 时 ， 算 法 就 把 它 细 分 成 
四 个 三 角形 。 通 过 这 种 方式 ， 球 可 以 膨胀 成 伸 长 的 数据 形状 ， 如 图 14-15b~c 所 示 。 通 过 距离 
扫描 仪 得 到 目标 表面 的 不 同 视图 ， 就 能 够 算出 3D 数 据点 的 位 置 ， 所 有 点 都 刚性 变换 到 全 局 坐 
标 系 中 。 想 像 一 下 把 不 同 表面 网 格 缝合 到 一 起 的 难度 有 多 大 ， 其 中 这 些 网 格 分 别 是 从 不 同 的 
视图 得 到 的 。 当 气球 模型 发 生 形变 以 拟 合 数据 时 ， 它 能 保持 正确 的 拓扑 结构 和 近似 不 变 的 三 
po 
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c) 最 终 的 hie 


图 14-15 用 物理 学 方法 进行 三 角形 网 格 膨胀 的 三 幅 示 意图 ， 三 角形 网 格 拟 合 3D 数 据 云 的 过 程 
(Yang Chen 和 Gerard Medioni 提供 ) 
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14.3.3 建立 心脏 跳动 模型 

三 角形 网 格 常用 来 建立 表面 模型 ， 而 四 面体 可 用 于 建立 3D 体 积 模型 。 每 个 四 面体 元 素 有 
四 个 顶点 ， 四 个 面 和 六 条 边 。 基 于 材料 性 质 对 边 分 配 硬 度 (stiffness) 值 。 当 模型 上 不 同 的 点 
有 力作 用 时 ， 结 构 形 状 会 发 生变 化 。 图 14-16 显 示 跳 动心 脏 的 两 个 状态 ， 它 们 是 根据 标记 磁 共 
振 图 像 算出 来 的 。 传感器 可 以 标记 活动 组 织 的 某 些 部 分 ， 这 样 可 以 测量 它们 的 3D 运 动 。 心脏 
模型 与 数据 吻合 ， 表 明 模 型 反映 了 真正 的 物理 过 程 和 心脏 跳动 情况 。 拟 合 的 模型 点 的 运动 可 
以 解释 心脏 是 如 何 工 作 的 。 模 型 四 面体 元 素 的 形变 ， 与 所 受 的 力 和 所 模拟 的 组 织 硬度 有 关 。 


Twisting Motion of Left Ventricles during Systole 


end-diastole 


end-systole 
Normal 
o° 


counter-clockwise © a. 
twist -10 ae: am: 





图 14-16 跳动 心脏 的 两 个 运动 情况 ， 由 标记 磁 共 振 图 像 数据 计算 得 出 。 传 感 器 可 以 
标记 活动 组 织 并 测量 它 的 3D 运 动 。 心 脏 模型 与 数据 吻合 ， 表 明 模型 反映 了 
真正 的 物理 过 程 和 心脏 跳动 情况 。 两 个 心脏 的 运动 向 量 是 不 同 的 (Jinah 
Park 和 Dimitris Metaxas 提供 ) 


14.4 3D 目 标识 别 范例 
考察 过 不 同 的 3D 目 标 模 型 后 ， 现 在 讨论 3D 目 标识 别 最 常用 的 几 个 范例 。 这 实际 上 难度 很 
大 ， 因 为 所 用 的 方法 与 应 用 、 数 据 类 型 以 及 识别 任务 的 要 求 密切 相关 。 有 几 方 面 的 因素 可 用 
来 对 目标 识别 问题 进行 分 类 或 进行 约束 。 这 些 因素 包括 : 
* 我 们 的 兴趣 在 于 工程 学 还 是 认 知 科 学 ? 如 果 只 是 想得到 直接 面向 应 用 的 工程 解 ， 那 么 这 
个 问题 可 能 非常 明确 以 至 于 很 简单 ， 就 像 要 从 混乱 的 钢 柱 堆 中 抓 出 一 根 。 如 果 我 们 的 兴 
趣 是 要 理解 人 类 的 目标 识别 功能 ， 这 就 意味 着 要 在 一 般 理 论 上 有 所 发 展 ， 要 与 多 种 心理 
学 数据 相 一 致 ， 这 是 一 个 困难 得 多 的 问题 。 
* 任务 中 涉及 的 是 自然 目标 还 是 人 造 目标 ? 人 造 目标 通常 比 自然 目标 更 规则 ， 很 多 人 造 目 
标 有 刚性 图 标 原型 ， 具 有 已 知 的 匹配 范例 可 用 。 自 然 目标 经 历 了 长 期 复杂 的 自然 变化 过 
程 (如 地 质 的 、 生 物 的 等 等 )， 这 些 变化 的 模型 很 难 建立 。 而 且 ， 与 人 造 目标 所 处 的 环 
境 相 比 ， 自 然 目 标的 环境 具有 更 少 的 约束 ， 更 难 进行 预测 。 例 如 室外 环境 自动 导航 的 目 
标识 别 问 题 ， 要 比 工厂 自动 化 中 的 目标 识别 与 位 姿 确定 问题 困难 的 多 。 
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“ 目标 表面 是 多 面体 . 二 次 曲面 还 是 自由 形态 的 表面 ? 很 多 识别 方案 仅仅 处 理 多 面体 表面， 
这 使 建 模 过 程 变 得 非常 简单 。 最 近 研 究 人 员 们 开始 转向 二 次 则 面 ， 据 称 它 可 以 模拟 大 约 
85% 的 人 造 目标 。 使 用 二 次 曲面 最 主要 的 好 处 是 ， 可 以 用 相同 基 元 (可 能 带 有 参数 拟 合 ) 
对 模型 数据 和 测量 数据 进行 描述 。 现 在 还 不 清楚 用 二 次 曲面 建立 刚体 雕刻 目标 、 自 由 形 
态 目 标的 效果 如 何 。 雕 刻 目标 ， 如 跑车 、 涡 轮 叶片 或 者 冰山 ， 可 能 有 很 多 不 同 的 平滑 弯 
曲 的 表面 特征 ， 这 些 特征 很 难 分 离 为 简单 基 元 。 

* 场景 中 只 有 一 个 目标 还 是 有 很 多 目标 ? 某 些 目标 识别 方案 假定 要 识别 的 目标 是 单独 存在 
的 。 在 工程 任务 中 ， 这 有 时 是 可 能 的 ， 有 时 是 不 可 能 的 。 多 目标 环境 要 困难 得 多 ， 因 为 
目标 特征 存在 遮挡 和 混杂 现象 。 全 局 性 特征 仅 对 单个 目标 是 有 效 的 。 在 多 目标 环境 中 分 
割 问题 是 很 重要 的 问题 。 

* 识别 的 目的 是 什么 ? 识别 目标 的 目的 可 能 是 为 了 检查 、 抓 取 或 避让 。 对 于 检查 ， 至 少 要 
察看 目标 的 部 分 细节 ， 模 型 和 测量 精度 必须 足够 高 。 抓 取 物 体 则 有 不 同 的 要 求 。 抓 取 任 
务 不 仅 需要 粗略 的 模型 几何 知识 ， 还 要 考虑 平衡 、 力 度 以 及 目标 在 工作 空间 中 的 可 接近 
性 。 对 于 路 径 上 的 障碍 物 ， 机 器 人 识别 的 目的 是 为 了 避让 ， 这 时 只 需要 识别 出 目标 大 致 
的 尺寸 、 形 状 和 位 置 即 可 。 

* 测量 到 的 是 2D 数 据 还 是 3D 数 据 ? 人 类 对 一 只 眼睛 看 到 的 图 像 就 能 运用 自如 。 很 多 研究 
者 设计 的 系统 只 使 用 2D 亮 度 图 像 作为 输入 。 通 过 视图 变换 ， 建 立 起 2D 图 像 特征 和 3D 横 
型 之 间 的 关系 。 所 以 匹配 过 程 需要 找 出 这 个 变换 而 且 进 行 目标 识别 。 如 果 能 够 得 到 3D 
数据 ， 则 匹配 就 变 得 容易 得 多 ， 这 就 是 目前 研究 人 员 热 圳 于 研究 深度 数据 的 原因 。 他 们 
相信 能 够 直接 检测 目标 的 表面 形状 和 位 置 。 这 反 过 来 又 可 直接 用 来 检索 可 能 的 目标 模型， 
还 减少 了 计算 配 准 变换 时 的 歧义 性 。 

“ 目标 模型 是 几何 模型 还 是 图 符 ? 几何 模型 描述 目标 精确 的 3D 形 状 ， 而 图 符 则 描述 一 类 
目标 。 几 何 模型 广泛 应 用 于 上 业 机 器 视觉 领域 ， 其 中 要 识别 的 目标 来 自 预先 规定 的 由 少 
量 目标 组 成 的 集合 。CAD 数 据 非 常 有 用 ， 其 中 要 包括 所 有 必要 的 几何 细节 。 要 识别 不 同 
类 别 的 目标 时 ， 就 需要 用 图 符 。 比 如 在 医疗 成 像 中 ， 每 个 器 官 都 是 一 个 新 的 目标 类 别 ， 
而 每 个 人 又 有 自己 的 特殊 情况 。 人 类 生存 环境 中 的 很 多 目标 如 椅子 ， 存 在 很 多 种 类 ， 这 
时 只 用 几何 模型 就 不 能 满足 要 求 了 。 

* 目标 模型 是 通过 学 习 得 到 的 还 是 预先 确定 的 ?目标 模型 可 能 包含 大 量 精确 数据 ， 这 些 数 
据 很 难 由 人 类 来 提供 。 仅 有 CAD 数 据 也 是 不 够 的 ， 数 据 的 附加 机 制 如 重要 特征 等 ， 常 党 
是 必需 的 。 借 助 传感器 通过 学 习 得 到 月 标的 几何 知识 ， 这 种 系统 是 迷人 的 理想 系统 。 

14.4.1 几何 模型 比 对 匹配 

3D 目 标 比 对 识别 与 2D 匹 配 的 原理 相同 。( 参 见 第 11 间 的 大 本 定义 .) 算法 14.2 是 这 种 匹配 

方法 的 基本 思想 。 

算法 14.2 ”确定 图 像 数据 点 集 是 否 与 3D 目 标 模型 匹配 

1. 在 模型 点 集 和 图 像 数 据点 集 之 间 假 设 一 个 对 应 关系 ; 

2. 利用 这 个 对 应 关系 求 模型 到 数据 的 变换 ; 

3. 把 这 个 变换 应 用 到 模型 点 上 ， 产 生变 换 后 的 模型 点 集 ; 

4. 对 变换 后 的 模型 点 集 和 数据 点 集 进行 比较 ， 以 证 实 假设 的 正确 性 。 
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下 面 我 们 讨论 3D-3D 和 2D-3D 两 种 情况 。 

1. 3D-3D 比 对 

假设 3D 模 型 是 3D 模 型 点 特征 的 集合 ， 或 者 3D 模 型 可 以 转化 为 3D 模 型 点 特征 的 集合 。 如 
果 是 深度 数据 ， 那 么 匹配 就 需要 相应 的 3D 数 据点 特征 。 比 对 过 程 是 寻找 从 三 个 选 定 模型 点 特 
征 到 三 个 对 应 数据 点 特征 之 间 的 对 应 关系 。 这 个 对 应 关系 决定 了 包括 3D 旋 转 和 3D 平 移 的 3D 变 
换 ， 把 这 个 变换 应 用 到 前 述 的 三 个 模型 点 就 会 得 到 对 应 的 三 个 数据 点 。 第 13 章 中 的 算法 13.3 
就 是 用 来 完成 这 项 工作 的 。 如 果 点 的 对 应 关系 正确 并 且 没 有 噪声 ， 那 么 可 以 通过 这 三 对 匹配 
点 找到 正确 的 3D 变 换 。 实 际 上 很 少 有 这 种 理想 情况 ， 
所 以 一 般 用 十 组 对 应 点 以 得 到 更 稳健 的 结果 。 任 何 
情况 下 ， 一 旦 算出 可 能 的 变换 ， 就 把 这 个 变换 应 用 





MP2 MP3 
到 所 有 的 模型 点 ， 产 生变 换 后 的 模型 点 集合 ， 可 以 Mpi 
直接 用 这 个 集合 与 数据 点 集合 做 比较 。 和 2D 中 的 情 
次 一 样 ， 用 验证 程序 确定 变换 过 的 模型 点 多 大 程度 S 
型 


上 与 数据 点 对 齐 ， 并 以 此 断言 匹配 成 功 或 尝试 另 一 
个 可 能 的 对 应 关系 。 和 2D 中 的 情况 一 样 ， 存 在 一 些 ” 图 14-17 3D 模 型 点 和 3D 网 格 数据 点 之 间 的 


智能 算法 ， 通 过 局 部 特征 焦点 法 或 其 他 感知 聚 类 技 对 应 情况 ， 可 以 用 3D-3D 比 对 算法 
术 来 选择 对 应 点 。 图 14-17 显 示 的 是 3D-3D 对 应 情况 ， 计算 从 模型 到 数据 的 变换 


将 3D 椅 子 模型 相交 的 三 条 边 与 3D 网 格 数据 集 进行 匹配 。 


$ 3D-3D 特 征 比 对 

多 面体 目标 中 线段 相交 于 一 点 是 很 常见 的 。 考 虑 3D 杯 子 目标 ， 它 有 一 个 圆柱 体 部 件 ， 内 
有 盛 液体 的 圆柱 体腔 ， 一 个 半圆 形 把 手 。 杯 子 的 哪些 特征 能 在 3D 数 据 中 检测 到 ， 并 且 能 用 作 
匹配 对 应 特征 ? 

这 里 特征 抽取 是 个 重要 的 问题 。 如 果 目 标 上 面 的 特征 点 如 角 点 、 顶 点 、 凹 点 等 很 容易 找 
到 ， 那 么 上 面 的 程序 就 很 适用 。 如 果 表 面 平滑 ， 特 征 点 很 少 甚至 不 存在 ， 那 么 就 需要 更 好 的 
方法 来 寻找 对 应 关系 。Johnson 和 Hebert (1998) 在 CMU 研 究 出 的 一 种 方法 就 能 解决 这 个 问题 。 
他 们 的 3D 目 标 表 示 由 以 下 部 分 组 成 : (1) 目标 的 3D 网 格 模型 ; (2) 一 组 自 旋 图 像 (spin 
image)， 根 据 反映 目标 局 部 形状 特征 的 网 格 模型 构造 得 出 。 

已 知 3D 目 标的 网 格 模型 ， 就 可 以 估算 在 每 个 网 格 顶点 的 表面 法 线 。 然 后 3D 空 间 任意 有 向 
点 与 特定 顶点 处 表面 法 线 的 关系 ， 就 可 以 用 两 个 距离 参数 wc 和 有 来 表示 ， 其 中 o 是 点 到 表面 法 
线 的 垂直 距离 ，B 是 点 到 特定 顶点 切面 的 有 向 垂直 距离 。 这 段 说 明 中 ,没有 提 到 旋转 角 ， 因 为 
旋转 角 具 有 歧义 性 。 

自 旋 图 像 是 2D 直 方 图 ， 可 以 针对 网 格 中 选 定 的 顶点 进行 计算 。 构造 每 幅 自 旋 图 像 都 要 有 
一 组 贡献 点 (contributing point)。 贡 献 点 规模 的 大 小 取决 于 两 个 自 旋 图 像 参 数 ， 即 从 贡献 点 
到 选 定 顶 点 的 最 大 距离 D， 以 及 贡献 点 法 线 和 选 定 顶点 法 线 间 允许 夹 角 A4。 围绕 指定 的 有 向 点 
0o， 基 于 贡献 点 集合 C 构 造 出 自 旋 图 像 ， 其 中 C 以 指定 的 自 旋 图 像 参 数 4 和 DD 为 基础 进行 选择 。 
用 累加 数组 S[a, B] 表 示 自 旋 图 像 ， 并 初始 化 为 零 。 然 后 对 每 个 点 ce C， 计算 它 关 于 选 定 的 网 
格 顶 点 o 的 距离 参数 a 和 B， 并 且 将 对 应 g 和 B 的 累加 数组 箱 格 增加 1。 注意 累加 数组 中 的 箱 格 大 
小 等 于 3D 网 格 中 顶点 之 间 的 平均 距离 。 图 14-18 给 出 了 自 旋 图 像 的 几 个 例子 。 
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图 14-18 自 旋 图 像 实例 (图 形 由 Andrew Johnson 提 供 ， 经 于 EE 允许。 再 版 自 “Efficient 
Multiple Model Recognition in Cluttered 3-D Scenes”， 作 者 A. E. Johnson 和 M. 
Hebert，IEEE 计 算 机 视觉 和 模式 识别 会 议论 文集 ，1998 年 6 月 。@1998 IEEE) 


在 网 格 模型 的 每 个 顶点 构造 自 旋 图 像 。 
这 给 出 了 网 格 各 点 的 局 部 形状 信息 。 为 了 
匹配 两 个 目标 ， 要 用 到 两 组 自 旋 图 像 。 通 
过 计算 相关 系数 ， 比 较 两 个 目标 各 点 对 应 
的 自 旋 图 像 。 高 度 相 关 的 点 对 ， 构 成 了 目 
标 匹 配 所 需要 的 3D 对 应 点 对 。 利 用 几何 一 
致 性 ， 对 对 应 点 对 进行 分 组 ， 并 去 掉 不 一 
致 的 对 应 点 。 然 后 就 像 一 般 比 对 方法 一 样 ， 
计算 刚性 变换 ， 并 用 于 验证 匹配 或 去 除 匹 
配 。 图 14-19 显 示 对 一 幅 难度 大 、 内 容 混乱 
的 图 像 进行 自 旋 图 像 识别 的 情况 ， 原 图 像 
中 包含 6 个 不 同 的 目标 ， 与 数据 库 中 的 模 
型 对 应 ， 而 数据 库 中 含 20 个 目标 模型 。 

2. 2D-3D 比 对 

比 对 也 可 以 用 于 2D-3D 匹 配 ， 其 中 目 
标 模型 是 三 维 的 ， 而 数据 来 自 2D 图 像 。 这 
时 ， 从 模型 点 到 数据 点 的 变换 更 为 复杂 。 
除了 3D 旋 转 和 3D 平 移 ， 变 换 中 还 有 透视 
投影 成 分 。 根 据 对 应 点 、 对 应 线段 以 及 2D 
椭圆 与 3D 圆 加 上 单 点 的 对 应 ， 或 者 是 以 上 
三 类 特征 相 结合 ， 都 可 以 估计 出 完整 的 变 
换 。 这 给 匹配 提供 了 一 个 有 力 的 工具 。 对 
应 关系 可 以 根据 经 验 进行 假设 或 者 通过 相 





场景 识别 模型 
亮度 图 像 


C4 

图 14-19 自 旋 图 像 识别 系统 ( 图形 由 Andrew Johnson 提 供 ， 
经 IEEE 人 允许 。 再 版 自 “Efficient Multiple Model 
Recognition in Cluttered 3-D Scenes”， 作 者 A. E. 
Johnson 和 M. Hebert，IEEE 计 算 机 视觉 和 模式 识 
别 会 议论 文集 ，1998 年 6 月 。@1998 IEEE) 
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关 匹 配 〈 参 见 第 14.4.2 节 ) 得 到 ， 然 后 用 对 应 关系 确定 出 可 能 的 变换 。3D 模 型 特征 经 变换 产 

生 2D 数 据 特征 。 这 里 要 提 到 一 个 在 2D-2D 比 对 中 不 兽 出 现 的 问题 。 在 3D 目 标的 任何 2D 透 视图 

像 中 ， 一 些 变换 得 到 的 特征 出 现在 背 对 摄像 机 的 表面 上 ， 以 及 被 离 观察 者 更 近 的 其 他 表面 庶 

挡住 的 表面 上 。 因 此 为 了 精确 生成 变换 后 的 特征 ， 并 用 来 与 图 像 特 征 作 比 较 ， 必 须 应 用 隐藏 

特征 算法 。 隐 藏 特征 算法 涉及 到 图 形 学 绘制 算法 ， 如 果 用 软件 实现 的 话 ， 运 算 速度 会 非常 慢 。 

如 果 有 适当 的 网 格 模型 和 图 形 硬件 ， 那 么 完全 绘制 就 是 可 以 的 。 其 他 常见 的 做 法 是 ， 要 么 忽 

略 隐藏 特征 问题 ， 要 么 采用 不 能 保证 精度 的 近似 算法 ， 但 这 对 于 验证 来 讲 足 够 了 。 
TRIBORS 目 标识 别 系统 (Pulli 和 

Shapiro,1996) 采用 多 面体 目标 的 视 类 模 

型 ， 寻 找 模 型 线段 三 元 组 和 2D 图 像 线段 

三 元 组 间 的 对 应 关系 。 在 训练 阶段 对 模 

型 三 元 组 进行 排列 ， 这 样 在 匹配 阶段 ， H 

首先 选择 被 检测 到 的 概率 较 大 的 三 元 组 ， 

而 那些 概率 较 低 的 干脆 不 予 考虑 。 用 含 9 

个 参数 的 向 量 来 描述 三 元 组 ， 这 些 参数 

用 来 描述 被 匹配 视 类 中 的 三 元 组 的 外 观 ”图 14-20 TRIBORS 系 统 中 线段 三 元 组 的 参数 化 。d, 和 qs 分 

特征 。 图 14-20 显 示 线 段 三 元 组 的 参数 化 别 是 线段 1 中 点 到 线段 4 和 4 中 点 的 距离 。 角 度 % [499 


= eh Beg = 和 % 分 别 是 线段 2 和 2 与 线段 1 之 间 的 夹 角 。 角 度 
情况 。 模 型 三 元 组 与 图 像 中 有 相同 参数 2 和 4& 分 别 是 线段 1 和 图 中 所 示 由 到 2 和 2 连接 线 之 
的 三 元 组 匹配 。 一 旦 假定 了 一 个 匹配 ， 间 的 夹 角 


用 数据 三 元 组 中 的 线段 交点 与 模型 中 假 
设 的 3D 对 应 顶点 配对 ， 并 采用 迭代 式 点 
对 应 外 向 算法 (参见 第 13 章 ) 确定 变换 关 
系 。 然 后 对 3D 目 标的 线 框 模型 进行 变换 ， 
其 中 可 见 边缘 通过 隐藏 线 检测 算法 进行 确 
定 。 对 每 条 预测 的 边缘 ,确定 最 接近 的 图 mika (a mmiki 

像 线 段 ， 并 且 根 据 预测 边缘 与 最 接近 图 像 ij SOR cect ` 

线段 之 间 的 相似 程度 进行 验证 。 图 14-21 。 y) 被 匹配 的 线段 三 元 组 (MA) 和 原始 奖 态 信 计 结果 
显示 TRIBORS 系 统 的 工作 情况 。 C) 最 终 匹配 结果 和 姿态 估计 结果 


ee 








b) 








”TRIBORS 匹 配 


TRIBORS 采 用 与 线段 三 元 组 有 关 的 9 个 参数 ， 确 定 模型 三 元 组 与 图 像 三 元 组 间 可 能 的 匹 
配 。 生 成 3D 多 面体 目标 相同 视 类 的 几 幅 不 同 视图 ， 比 如 用 图 14-11 中 的 椅子 目标 。 确 定 在 所 有 
视图 中 出 现 的 三 条 主要 线段 ， 并 计算 图 14-20 所 示 的 9 个 参数 。 计 算 不 同 的 参数 向 量 ， 它 们 之 
间 相似 程度 如 何 ” 把 这 三 个 线段 的 9 个 参数 与 完全 不 同 的 其 他 三 个 线段 参数 进行 比较 。 在 线段 
三 元 组 之 间 ， 这 9 个 参数 有 明显 的 不 同 吗 ? 

3. 光滑 目标 比 对 

我 们 已 经 讨论 了 3D 网 格 模型 到 3D 深 度 图 像 的 比 对 ， 以 及 3D 多 面体 模型 到 2D 亮 度 图 像 的 
比 对 。 现 在 要 考虑 的 问题 是 ,根据 一 个 2D 亮 度 图 像 识 别 自 由 形态 的 3D 目 标 ， 并 计算 它 的 位 姿 。 
求解 结果 借用 了 模型 的 视 类 类 型 ， 但 是 视 类 的 表示 与 TRIBORS 所 用 的 线段 三 元 组 集合 有 很 大 
不 同 ， 并 且 匹 配 在 最 低层 的 边缘 图 像 上 进行 。 
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这 里 讨论 的 算法 以 Chen 和 Stockman (1996) 的 工作 为 基础 。 他 们 建立 的 系统 能 够 确定 表 


面 光滑 的 3D 目 标的 位 姿 。 在 这 个 系统 中 ,用 LY) 
一 组 25 DLE ( 称 为 模型 表象 ) 建立 3D 目 i ad 
PRA. HUD MUR L. F E A hei 
旋转 ， 2 了 D 视 图 就 是 根据 这 5 幅 图 像 合成 的 。 
构造 汽车 模型 表象 的 5 幅 输 入 图 像 参 见 图 EP) Ts A Vy 
14-22。 抽 取出 中 间 那 幅 边缘 图 的 轮廓 , 将 AC 人 CO 
其 分 割 为 曲线 段 ， 求 出 曲线 段 的 不 变 特征 ， 
作为 识别 模型 表象 的 索引 。 

采用 stereo-like 计 算 ， 对 于 中 间 图 像 上 的 LEE, 
ENDRRA, vl, FADD SI, y, at W CU 
z]。 用 上 下 两 幅 图 像 计 算 目 标 边缘 在 y 方 向 的 ”图 14-22 构造 汽车 模型 表象 的 5 幅 输 入 图 像 (JinLong 
曲率 ， 用 左右 两 幅 图 像 计算 目标 边缘 在 x 方 Chen 提 供 ) 


向 的 曲率 。 同 样 用 stereo-like 计 算 ， 算 出 中 间 
边缘 图 上 折 痕 和 标记 点 的 3D 位 置 。 这 样 ，2 了 DD 模型 表象 中 包含 3D 边 缘 、 折 痕 和 标记 点 ， 对 
应 于 中 间 边 缘 图 像 以 及 在 这 些 点 处 的 x 和 y 的 曲率 。 基 于 这 些 信息 ， 如 果 知道 视图 的 参数 ， 通 
过 数学 公式 就 能 生成 同一 视 类 中 任意 视点 的 边缘 图 。 视 类 可 用 下 列 特征 进行 描述 ，(1) 3D 点 
集 和 上 面 提 到 的 曲率 ; (2) 用 作 索 引 的 不 变 特征 集 。 根 据 中 间 和 邻近 边缘 图 之 间 的 stereo- 
like 对 应 关系 ， 可 以 推导 出 这 些 3D 点 ， 参 见 第 13 章 有 关内 容 。 不 变 特征 则 是 从 中 间 图 像 的 2D 
边缘 图 推导 出 来 的 ， 参见 第 10 章 有 关内 容 。 
对 要 分 析 的 图 像 进行 处 理 ， 产 生 边 缘 图 和 一 组 曲线 段 。 Fi ER BRAA SL RH 
， 产 生 目 标 -视图 假设 。 匹 配 过 程 对 检索 到 > 
ae 其 中 每 个 假设 都 包括 目 
标的 标识 和 近似 位 姿 。 把 每 个 候选 2 DBL 
表象 与 测量 到 的 边缘 图 进行 拟 合 ， 通 过 这 种 
方法 来 进行 验证 。 开 始 时 ， 设 定 目标 位 姿 为 
能 生成 中 间 表 象 的 位 姿 ， 假 设 要 对 这 个 中 间 
表象 进行 匹配 。 把 模型 表象 的 投影 边缘 图 像 
与 观测 到 的 边缘 图 进行 比较 。 多 数 情况 中 比 
较 结果 不 会 很 好 。 因 此 匹配 时 要 改进 位 姿 参 
数 如 以 减 小 在 投影 模型 边缘 图 和 观测 边 绿 
图 之 间 的 2D 距 离 。 图 14-23 显 示 匹 配 的 步骤 。 








图 14-23 匹配 边缘 图 ， 比 例 系 数 "为 1:2 
a 图 是 从 输入 图 像 推导 出 的 边缘 图 ，b 图 是 检 (JinLong Chen 提 供 ) 


索 出 的 假设 模型 位 姿 。c 图 显示 生成 模型 边 a) 观测 到 的 边缘 图 
界 的 几 次 迭代 ，d 图 显示 第 一 个 可 接受 的 匹 “ b) 模型 边缘 图 
配 结果 。 c) 比 对 算法 中 收敛 的 趋势 
d) 拟 合 的 边缘 图 显示 在 原始 图 像 上 
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“就 下 面 几 种 情况 ， 解 释 需要 多 少 目标 模型 和 多 少 模型 表象 。 解 释 需要 多 高 的 位 交 精 度 . 
(a) 在 洗车 场 ， 自 动机 械 需 要 根据 进入 的 汽车 模型 进行 复位 调整 。(b) 在 停车 场 ， 监 控 和 登 
记 系 统 需要 识别 进入 和 驶 出 的 汽车 模型 ， 并 记录 相应 的 时 间 。(c) 计算 机 视觉 系统 需要 扫描 












得 到 弯曲 目标 的 一 个 模型 表象 ， 说 明 通 过 轻微 旋转 ， 就 能 够 生成 目标 的 轮廓 。 如 外 径 为 
10、 内 径 为 1 的 圆 环 面 。 中 心 的 模型 表象 ， 视 线 与 外 圆 垂直 。 沿 模型 轮廓 确定 一 组 3D 点 ， 并 
确定 这 些 点 的 x、y 方 向 的 曲率 。 然 后 建立 合成 图 像 ， 说 明 轻 微 旋转 时 这 个 轮廓 是 如 何 变化 的 。 
14.4.2 关系 模型 匹配 

和 二 维 匹 配 一 样 ， 3D 目 标识 别 可 利用 关系 模型 ， 这 样 就 从 几何 模型 转向 图 符 模型 。 算 法 
14.3 总 结 了 基本 相关 距离 匹配 技术 ， 将 其 简化 成 单一 关系 ， 该 匹配 技术 在 第 11 章 介绍 过 。 具 
体 采用 什么 模型 和 方法 取决 于 图 像 数据 是 3D 的 还 是 2D 的 。 
算法 14.3 相关 距离 匹配 技术 : 确定 两 个 相关 描述 是 否 达到 匹配 的 相似 程度 
P 是 模型 部 件 集 。 
L 是 部 件 可 能 的 标记 集 。 
R, 是 部 件 关系 。 
R, 是 标记 关系 。 
找到 一 个 从 P 到 工 的 映射 /， 它 使 误差 已 )=IRe of- Rul + IR, o 太 -一 Ril 最 小 。 采 用 解 
释 树 、 离 散 松 弛 、 概 率 松弛 或 第 11 章 中 介绍 的 其 他 方法 。 


1. 3D 关 系 模 型 

三 维 关系 模型 由 3D 基 元 和 3D 空 间 关系 组 成 。 基 元 可 以 是 体积 、 表 面 片 或 3D 空 间 中 的 直线 
特征 或 曲线 特征 。 广 义 圆柱 体 常 常用 作 体 积 基 元 以 及 某 类 3D 连 接 关 系 。 几 何 离子 (Geons) 或 
几何 图 标 (geometric ion) 被 认为 是 人 类 视觉 所 用 的 体积 基 元 ， 在 3D 目 标识 别 中 也 用 到 了 几何 
离子 。 工 业 目 标 可 以 用 平面 、 圆 柱 面 和 表面 间 的 邻接 关系 进行 表示 。 三 维 直 线 和 曲线 段 具 有 多 
种 空间 关系 ， 如 连接 、 平 行 和 共 线 等 。 、 

棒 - 盘 - 团 (stick, plate, blob) 模型 用 于 建立 3D 目 标的 粗糙 模型 ， 也 可 对 多 部 件 的 复杂 人 
造 目标 进行 描述 和 识别 。 其 中 部 件 可 以 是 各 种 各 样 的 平面 或 曲面 。 对 于 粗 匹配 的 每 个 部 分 可 
归 类 为 棒 条 、 盘 片 和 团 ， 这 与 表面 - 边 -顶点 模型 不 同 ， 后 者 试图 对 各 部 件 进 行 精确 描述 。 棒 条 
是 又 细 又 长 的 部 件 ， 只 有 一 个 有 效 维 。 盘 片 是 又 平 又 宽 的 部 件 ， 它 含 两 个 接近 的 平面 ,平面 
通过 一 条 薄 边 相连 接 。 盘 片 有 两 个 有 效 维 。 团 是 有 三 个 有 效 维 的 部 件 。 这 三 类 部 分 都 近似 是 
吓 的 ， 所 以 棒 条 不 能 弯曲 的 很 厉害 ， 盘 片 表面 不 能 折 炙 的 很 厉害 ， 团 虽然 可 以 是 崎 岂 不 平 的 ， 
但 凹 度 不 能 太 大 。 图 14-24 显 示 了 棒 条 、 盘 片 和 团 的 几 个 例子 。 

棒 - 盘 - 团 模型 描述 了 棒 条 、 盘 片 和 团 如 何 一 起 构造 目标 。 这 些 描述 也 是 粗略 的 ， 它 们 不 
能 准确 说 明 两 个 部 分 的 实际 相交 点 。 棒 条 包括 两 个 逻辑 端点 、 逻 辑 内 部 点 集 和 逻辑 质心 ， 可 
以 把 这 些 点 看 作 连 接点 。 盘 片 包括 边缘 点 集 、 表 面 点 集 和 质心 。 团 包括 表面 点 集 和 质心 。 目 
标 模 型 中 只 能 用 到 这 些 信 息 。 
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标 - 盘 - 团 这 种 关系 模型 ， 是 细节 化 图 符 目标 模型 很 好 的 例子 ， 图 符 目标 模型 在 图 符 目标 
识别 中 得 到 了 很 成 功 的 应 用 。 模 型 由 5 个 关系 
组 成 。 一 元 简单 部 件 (SIMPLE PARTS) 关 
系列 出 了 目标 的 各 部 件 。 每 个 部 件 都 有 几 项 6 SS 一 一 
属性 搞 述 ,包括 部 件 的 类 型 ( 裕 , 入 或 者 团 )， 
也 可 能 包括 部 件 尺 寸 或 形状 的 数量 信息 。 连 是 
接 /支持 (CONNECTIONS/SUPPORTS ) 关 CA 
系 包含 目标 结构 上 最 重要 的 信息 。 这 个 关系 GS L ? 
是 六 元 形式 (si, s2, SUPP-ORTS, HOW). 
THs Als EB MAB. MO HS, 四 


SUPPORTS HH; RZ. HOW Ts, © EF 
和 s, 的 连接 类 型 。 


其 他 4 个 关系 表示 约束 情况 。 三 元 约束 
(TRIPLE CONSTRAINT) 关系 是 四 元 形式 图 14-24 棒 条 、 盘 片 和 团 儿 举 例 
(5), 52, 53, SAME), Serie] Bees kiks 和? ， 如 果 * 和 s: 在 相同 端点 〈 或 表面 ) 接触 9， 
则 SAME 为 真 ;， 反 之 为 假 。 平 行 (PARALLEL) 关系 和 垂直 (PERPENDICULAR) 关系 是 二 
元 形式 (si ，s%)， 其 中 简单 部 件 * 和 5? 在 模型 中 是 平行 的 (或 垂直 的 )。 图 14-25 显 示 棒 子 的 
棒 - 盘 - 团 模型 。 无 论 部 件 的 精确 形状 如 何 ， 所 有 有 类 似 关 系 的 椅子 都 应 该 与 这 个 模型 匹配 。 


1 3 
SIMPLE-PARTS CONNECTS-SUPPORTS TRIPLES 
PART# TYPE SP1 SP2 SUPPORTS HOW SP1 SP2 SP3 SAME 


1 Stick 1 5 True end-edge 1 5 2 True 
2 Stick 2 5 True end-edge 1 5 3 True 
3 Stick 3 5 True end-edge 1 5 4 True 
4 Stick 4 5 True end-edge 1 5 6 False 
5 Plate 5 6 True edge-edge 2 5 3 True 
6 Plate 2 3 4 True 
2 5 6 False 
3 5 4 True 
3 5 6 False 
4 5 6 False 
PARALLEL PERPENDICULAR 
SP1 SP2 SP1 SP2 
1 2 1 5 
1 3 2 5 
1 4 3 5 
2 3 4 5 
2 4 5 6 
3 4 


图 14-25 椅子 目标 棒 - 盘 - 团 模型 的 整体 关系 结构 
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画 出 简单 的 多 面体 课 桌 图 ， 构 造 该 目标 整体 关系 的 棒 - 盘 - 团 模型 。 

2. 视 类 关系 模型 

当 数据 由 2D 图 像 构成 时 ， 就 可 以 用 视 类 模型 代替 完全 3D 目 标 模型 。 训 练 数据 可 以 是 合成 
的 图 像 ， 或 者 是 目标 的 实际 图 像 ， ice licen 根据 目标 的 种 类 ， 从 目标 图 
像 中 抽取 可 用 的 2D 特 征集 。 从 训练 图 像 抽 
取 的 特征 生成 目标 相应 视图 的 相关 描述 。 
然后 对 这 些 相关 描述 进行 聚 类 ， 形 成 目标 
的 视 类 。 每 个 视 类 用 包含 所 有 特征 的 组 合 
相关 描述 来 表示 ， 这 些 特 征 是 在 该 视 类 的 
所 有 视图 中 检测 到 的 。 综 合 相 关 描 述 是 视 图 14-26 工件 的 左右 图 像 ， 以 及 经 图 像 处 理 去 除 阴 影 
类 的 关系 模型 。 典 型 地 ， 目 标 有 5 个 视 类 ， i a (Mauro Costa 
每 个 视 类 都 有 自己 的 相关 描述 。 视 类 模型 si 
可 用 于 完全 相关 匹配 。 如 果 数 据 库 中 有 很 多 不 同 的 模型 ， 或 者 对 于 第 11 章 介绍 的 相关 素 引 ， 完 
全 相关 匹配 的 代价 就 很 高 。 下 面 的 例子 采用 相关 索引 方式 。 

由 华盛顿 大 学 Mauro Costa 开 发 的 RIO 目 标识 别 系 统 ， 根 据 2D 图 像 识 别 多 目标 场景 中 的 3D 
目标 。 用 固定 摄像 头 拍摄 一 对 图 像 ， 一 幅 
图 像 拍 摄 时 用 左 侧 的 光源 ， 另 一 幅 图 像 用 
右 侧 的 光源 。 用 这 两 幅 图 像 来 确定 哪个 区 
域 是 阴影 部 分 ， 哪 个 区 域 是 高 亮 部 分 ， 这 
样 就 可 以 得 到 只 含 目 标的 高 质量 边缘 图 像 。 
从 边缘 图 像 获 得 直线 段 和 弧 线 段 ， 并 根据 
直线 段 和 弧 线 段 构造 识别 用 的 特征 。 图 14- 
26 显 示 的 是 左右 图 像 对 和 抽取 的 边缘 图 像 。 
图 14-27 显 示 从 边缘 图 像 中 抽取 的 直线 段 和 
弧 线 段 。 

RIO 目 标 可 能 有 平面 、 圆 柱 面 、 线 状 图 案 的 表面 。 这 就 产生 很 多 实用 的 高 级 特征 。RIO 采 
用 10 种 特征 ， 它 们 是 椭圆 、 同 轴 弧 (2 个 、 
3 个 或 多 个 )、 平 行 线段 对 (远近 均 可 )、 线 
段 三 元 组 (U 形 和 Z 形 )、L 连 接 、Y 连 接 和 
V 连 接 。 图 14-28 显 示 的 是 ， 从 图 14-27 的 线 
段 和 弧 线 中 构造 出 的 一 些 特征 。 直 线 特征 
包括 2 个 工 连接 和 一 对 平行 线 。 弧 线 类 特征 ”图 14-28 根据 图 14-27 中 的 直线 和 弧 线 构造 的 直线 特 
显示 出 3 个 同 轴 弧 。 注 意 不 是 所 有 的 直线 自 AE. 训 线 特征 和 梯 四 特征 (Mauro Costa 提供 ) 
或 弧 线 段 最 终 都 会 成 为 匹配 用 的 特征 。 图 14-29 显 示 完 整 的 RIO 特 征集 合 。 

除了 标记 特征 ，RIO 还 在 特征 之 上 采用 标记 二 元 关系 来 识别 目标 。RIO 中 使 用 的 关系 有 : 
共用 一 条 弧 、 共 用 一 条 线 、 共 用 两 条 线 、 同 轴 性 、 端 点 接近 、 以 及 包围 /被 包围 ， 如 图 14-30 
所 示 。 








图 14-27 从 图 14-26 的 边缘 图 像 抽 取 的 直线 段 和 弧 线 段 
(Mauro Costa 提供 ) 
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b) 同 轴 弧 (3 个 ) c) 同 轴 弧 (多 个 ) d) ue PATH 
yN 
d<40 像 素 | » NN | 
) 近乎 行 线 f) U 型 三 元 组 g) Z 型 三 元 组 h) 工 连接 
i) Y 连 接 j) V 连 接 


图 14-29 RIO 系 统 使 用 的 特征 (Mauro Costa 提 供 ) 
模型 视图 的 结构 描述 是 图 结构 ， 图 的 节点 是 特征 类 型 ， 图 的 边 是 关系 类 型 。 为 了 使 图 能 用 
在 相关 索引 程序 中 ， 把 图 分 解 成 2- 图 的 集合 ， 每 个 2- 图 包括 两 个 节点 和 节点 间 的 一 个 关系 。 图 
14-31 显 示 螺 母 的 模型 视图 ， 表 示 三 个 特征 及 特征 间 关 系 的 局 部 完全 图 ， 以 及 2- 图 分 解 。 


























模型 视图 关系 
一 a: 包围 

一 个 b: 同 轴 

一 特征 

> E 

2: 椭圆 

_a) 共用 -条 弧 ) 共用 一 条 线 3 平行 线 
其 用 两 条 线 d) 同 轴 

















e) 端点 接近 f) 边界 框 包围 /被 包围 
图 14-30 样本 特征 对 之 间 的 关系 (Mauro Costa 提 供 ) 。 图 14-31 螺母 的 图 和 对 应 的 2- 图 (Mauro Costa 提供 ) 





相关 索引 将 未 知 图 像 与 可 能 很 大 的 目标 视图 数据 库 进行 匹配 ， 生成 关于 哪些 目标 存在 于 
图 像 中 的 一 组 假设 。 离 线 预 处 理 阶段 建立 数据 结构 ， 在 线 阶段 进行 匹配 。 离 线 阶段 构造 在 线 
阶段 要 用 的 散 列 表 。 散 列表 的 索引 是 四 元 组 ， 表 示 目 标 模型 视图 的 2- 图 。 四 元 组 的 元 素 包括 
两 个 节点 的 类 型 和 两 个 关系 的 类 型 。 例 如 四 元 组 (椭圆 ， 远 平行 线 ， 被 包围 ， 包 围 ) 的 意思 
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是 ，2- 图 表示 了 椭圆 特征 和 远 平行 线 特 征 ， 其 中 椭圆 被 两 条 平行 线段 包围 ， 也 就 是 这 两 条 平 
行 线 包围 这 个 椭圆 。 因 为 大 多 数 RIO 关 系 都 是 对 称 的 ， 所 以 这 两 个 关系 经 常 是 相同 的 。 比 如 ， 
四 元 组 (椭圆 ,一 组 同 轴 弧 ， 共 用 一 条 弧 ， 共 用 一 条 统 ) 描述 了 一 个 关系 ， 其 中 椭圆 和 一 组 
同 轴 弧 共用 一 条 弧 。 为 了 散 列 ， 把 四 元 组 的 图 符 元 素 转 换 为 数字 。 对 数据 库 中 的 每 个 模型 视 
图 都 进行 预 处 理 ， 对 模型 视图 的 每 个 2- 图 进行 编码 ， 产 生 四 元 组 索引 ， 将 模型 视图 的 名 字 和 
相关 信息 存储 在 散 列表 选 定 的 箱 格 列表 中 。 

构造 好 的 散 列 表 用 于 在 线 识 别 。 对 数据 库 中 每 个 可 能 的 模型 视图 ， 都 使 用 一 个 用 于 投票 
的 累加 器 。 当 分 析 场 景 时 ， 抽 取 场 景 特征 ， 构 造形 式 为 2- 图 集合 的 相关 描述 。 然 后 ， 对 相关 
描述 中 的 每 个 2- 图 进行 编码 ， 产 生 一 个 索引 ， 用 这 个 索引 来 访问 散 列表 。 与 所 选 箱 格 有 关 的 
列表 被 检索 出 来 ， 列 表 包 括 具有 该 特殊 2- 图 的 所 有 模型 视图 。 给 这 个 列表 中 的 每 个 模型 视图 
都 投 一 票 。 对 图 像 中 的 所 有 2- 图 都 执行 上 述 过 程 。 在 程序 结尾 ， 得 票 最 高 的 模型 视图 作为 候 
选 的 假设 。 图 14-32 显 示 在 线 识别 过 程 。 图 中 所 示 的 2- 图 转化 为 数字 四 元 组 (1，2，9，9 )， 
这 个 四 元 组 在 散 列表 中 选 定 一 个 箱 格 。 访 问 这 个 箱 格 ， 检 索 出 含 四 个 模型 Mj、M;、M;3、M 
的 列表 。 这 些 模型 视图 的 累加 器 都 加 1。 

生成 假设 后 ， 必 须 进行 验证 。 相 关 索 引 在 模型 视图 中 提供 了 从 2D 图 像 特 征 到 2D 模 型 特征 
的 对 应 关系 。 这 些 2D 模 型 特征 与 假设 目标 的 3D 模 型 特征 联系 起 来 。RIO 系 统 执行 验证 ， 采 用 
相对 应 的 2D-3D 点 对 、2D-3D 线 段 对 和 2D 椭 圆 -3D 贺 对， 计算 从 假设 目标 的 3D 模 型 到 图 像 的 变 
换 关系 。 直 线 和 弧 线 段 投 影 到 图 像 平 面 ， 通 过 计算 某 种 距离 确定 验证 是 否 成 功 ， 或 者 假设 是 
否 正 确 。 图 14-33 和 14-34 显 示 RIO 系 统 的 运行 过 程 。 图 14-33 显 示 多 目标 场景 的 边缘 图 像 ， 以 
及 检测 到 的 直线 特征 、 圆 弧 特 征 和 椭圆 特征 。 图 14-34 显 示 系 统 产 生 的 一 次 不 正确 假设 和 三 次 
正确 假设 。 不 正确 假设 被 验证 程序 取消 ， 而 正确 假设 通过 了 验证 。 第 13 章 中 给 出 了 基于 点 对 
应 的 RIO 位 姿 估计 程序 。 图 14-35 显 示 完 整 的 RIO 系 统 的 方 框图 。 
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图 14-33 测试 图 像 及 其 直线 特征 、 圆 弧 特 征 
和 椭圆 特征 (Mauro Costa 提 供 


图 14-32 相关 索引 的 投票 方案 (Mauro Costa 提供 ) 









编写 用 于 目标 匹配 的 相关 索引 程序 。 该 程序 要 采用 存储 的 目标 模型 库 ， 库 中 每 个 模型 都 


用 2- 图 集合 表示 。 识 别 阶段 的 输入 ， 是 一 个 2- 图 集合 表示 的 多 目标 图 像 。 程 序 应 该 返回 数据 库 [5 
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中 每 个 模型 的 列表 ， 数 据 库 中 模型 的 2- 图 至 少 有 50% 在 图 像 中 。 





从 图 像 对 中 去 掉 阴 影 和 高 亮 部 分 ， 
产生 合成 图 像 





抽取 基 元 特征 并 形成 高 级 特征 







计算 高 级 特征 间 的 关系 ， 
构造 表示 图 像 的 2- 图 集合 





用 2- 图 索引 散 列表 ， 并 为 可 能 的 目标 模型 投票 







通过 目标 的 3D 网 格 模型 和 位 姿 估计 
给 证 假设 是 否 正确 





图 14-34 一 次 不 正确 的 假设 (左上 ) 和 三 次 正确 图 14-35 RIO 目 标识 别 系统 的 流程 图 
的 假设 (Mauro Costa 提 供 ) 


14.4.3 功能 模型 匹配 

几何 模型 给 出 了 特定 物体 的 精确 定义 。CAD 模 型 描述 了 单个 目标 所 有 重要 的 点 和 具体 尺 
寸 。 关 系 模型 描述 了 一 类 目标 ， 更 具 一 般 性 ， 但 类 中 的 每 个 成 员 都 必须 有 相同 的 关系 结构 。 
例如 一 把 椅子 可 能 被 描述 为 有 一 个 靠背 、 一 个 座位 和 四 角 下 的 四 条 腿 。 另 一 把 用 底座 和 支架 
代替 四 条 腿 的 椅子 则 与 这 个 描述 不 匹配 。 基 于 功能 的 目标 识别 方法 更 进 了 一 步 ， 它 试图 通过 
目标 的 功能 来 定义 目标 的 类 别 。 因 此 椅子 是 某 种 东西 ， 人 可 以 坐 在 上 面 ， 椅 子 可 能 有 很 多 不 
同 的 关系 结构 ， 只 要 满足 一 组 功能 约束 ， 那 么 它 就 是 椅子 。 

基于 功能 的 目标 识别 ， 最 先 由 Stark 和 Bowyer (1996) 在 他 们 的 GRUFF (Generic Object 

513| Recognition Using Form and Function) 系统 中 使 用 。GRUFF 包 含 三 级 知识 : 

(1) 所 有 目标 的 类 别 层 次 都 在 知识 库 中 。 

(2) 根据 功能 属性 对 类 别 进 行 定 义 。 

(3) 知识 基 元 是 功能 定义 的 基础 。 

1. 知识 基 元 

知识 基 元 是 一 个 参数 化 过 程 ， 它 实现 了 几何 、 物 理学 或 因果 关系 的 基本 概念 。 知 识 基 元 
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用 3D 形 状 描述 的 一 部 分 作为 输入 ， 返 回 一 个 值 ， 该 值 表 示 基 元 在 多 大 程度 上 满足 某 种 需求 
个 GRUFE 知 识 基 元 定义 的 概念 包括 : 

“相关 姿态 

。 尺 度 

* 邻近 性 

* 稳定 性 

. FSA PE 

* 包围 性 

相关 姿态 (relative orientation) 基 元 确定 两 个 表面 的 相关 姿态 满足 期 望 关 系 的 程度 。 例 如 
椅 座 上 表面 可 能 基本 垂直 于 相 邻 的 靠背 表面 。 尺 度 (dimension) 基 元 对 6 种 可 能 的 尺度 类 型 进 
行 尺度 测试 ， 这 6 种 尺度 类 型 是 : 宽度、 深度、 高度、 面积、 连续 表面 和 体积 。 大 部 分 物体 中 ， 
一 个 部 件 的 尺度 约束 着 其 他 部 件 的 尺度 。 邻 近 性 (proximity) 基 元 检验 目标 形状 元 素 间 定性 的 
空间 关系 。 例 如 水 壹 把手 应 该 位 于 水 壹 的 质心 之 上 ， 这 样 才 容易 提起 它 。 

所 具有 某 种 形状 的 物体 以 一 定 的 方向 和 力度 放 在 支撑 面 上 ， 稳 定性 (stability) 基 元 用 来 
检验 这 时 该 物体 的 稳定 性 。 空 旷 性 (clearance) 基 元 检验 物体 部 件 间 特定 的 空间 体积 是 否 是 
空 及 的 。 例 如 为 了 让 人 能 坐 在 椅子 上 面 ， 应 该 清空 椅 座 上 的 立方 体 空 间 。 最 后 ， 包 围 性 
(enclosure) 基 元 测试 目标 必要 的 凹陷 。 例 如 高 脚 酒 杯 必 须 有 用 来 已 酒 的 凹陷 。 

2. enn 

能 目标 类 别 的 定义 规定 了 它 必须 有 的 与 知识 基 元 有 关 的 功能 属性 。 家 具 、 器 三 和 工具 
天 和 人 GREEN ne. 由 下 列 四 种 可 能 的 模板 确定 : 











* 提供 稳定 的 X 
.提供 X 表 面 
, 提供 X 容 积 
。 提 供 和 把 手 7 椅子 传统 椅子 
其 中 X 是 模板 的 参数 。 例 如 椅子 必须 we Eta 
为 坐 在 其 上 的 人 提供 稳定 的 支持 和 可 es pees 
举 的 表面 。 汤 碗 必须 为 汤 提 供 容 积 空 m 7 p —E HES 
间 。 杯 子 必须 包含 可 抓 起 的 合适 把 手 ， aE 
把 手 要 与 杯子 的 尺度 匹配 。 了 suse 
3. 类 别 层次 > az 一 此 sa 
GRUFF 通 过 分 类 树 表 示 出 目标 的 _category oe 
各 类 别 层次 ， 树 中 列 出 了 系统 当前 可 识 Pefimtions | [ i 
别 的 所 有 类 别 。 在 树 的 顶层 是 非常 一 般 | 、 ke ni 
HKI, WRAS. CL REL 
化 。 比 如 家 具 中 的 类 别 有 : 椅子 、 桌 子 、 p> ar E tia 
长 椅 、 书 架 和 床 。 而 且 这 些 类 别 可 以 进 工具 J R RTA 
一 步 分 解 。 椅 子 可 以 分 为 : 传统 椅子 、 一 扳手 一 [ ”区 于 
沙发 、 平 衡 椅 和 高 脚 椅 等 。 图 14-36 显 图 14-36 GRUFF 分 类 树 的 一 部 分 (由 Louise Stark 和 


示 GRUFF 分 类 树 的 一 部 分 。 Kevin Bowyer 提供 ) 
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GRUFF 采 用 基于 功能 的 目标 分 类 方法 ， 目 的 不 是 为 了 识别 目标 ， 而 是 推断 用 深度 数据 表 
示 的 观测 目标 是 否 具有 该 类 成 员 应 具有 的 功能 。 这 个 基于 功能 的 分 析 过 程 ， 主 要 包括 两 个 阶 
段 : 预 处 理 阶段 和 识别 阶段 。 预 处 理 阶段 与 类 别 无 关 ， 以 相同 的 方式 处 理 所 有 的 目标 。 在 这 
个 阶段 ,分 析 3D 数 据 ， 列 举 所 有 可 能 的 功能 要 素 。 识 别 阶段 使 用 这 些 要 素来 构造 索引 ， 用 这 
些 索引 给 目标 类 别 排序 。 索 引 由 功能 要 素 和 它 的 面积 及 体积 组 成 。 以 索引 信息 为 基础 ， 不 再 
搜索 那些 不 可 能 匹配 的 类 别 。 对 余下 的 类 别 排序 ， 用 于 进一步 的 评价 。 对 每 个 类 假设 ， 首 先 
调用 它 的 每 个 知识 基 元 ， 度 量 由 数据 得 到 的 功能 要 素 与 其 需求 之 间 的 符合 程度 。 每 个 知识 基 
元 返回 一 个 评价 测度 ， 然 后 综合 这 些 测度 形成 最 终 的 联合 测度 ， 联 合 测度 描述 来 自 数据 的 全 
部 功能 要 素 与 假设 类 别 的 匹配 程度 。 图 14-37 显 示 GRUFF 系 统 的 一 种 典型 输入 ， 图 14-38 显 示 
数据 分 析 中 的 功能 推理 部 分 。 


提供 后 背 支撑 
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Ls p RENS c) 没有 变形 ,椅子 功 d) 没有 变形 ， 直 背 椅 
深度 图 分 割 后 的 深度 图 AREAL 


图 14-37 GRUFF 系 统 的 输入 数据 (由 Louise 。 ”图 14-38 GRUFF 系 统 的 处 理 过 程 (由 Louise Stark 和 Kevin 
Stark 和 Kevin Bowyer 提 供 ) Bowyer 提 供 ) 
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习题 功能 目标 识别 
考虑 两 张 桌 子 ， 一 张 四 角 下 有 四 条 腿 ， 另 一 张 有 一 个 底座 。 功 能 目标 识别 系统 使 用 两 张 
桌子 间 的 什么 相似 性 ， 把 二 者 分 为 同一 类 目标 ? 
14.4.4 基于 外 观 的 识别 
在 大 多 数 3D 目 标识 别 方案 中 ， 模 型 是 根据 目标 2D 图 像 得 到 的 独立 实体 。 这 部 分 我 们 讨论 
的 内 容 是 ， 通 过 记忆 很 多 目标 的 2D 图 像 来 学 习 目 标 ， 把 未 知 目标 的 感 测 图 像 与 记 亿 中 的 图 像 
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进行 匹配 ， 从 而 识别 出 目标 。 在 信号 级 (signal level) 表示 目标 ， 直 接 对 亮度 图 像 进行 匹配 ， 
而 不 使 用 高 级 特征 ， 因 此 不 需要 消耗 太 多 的 时 间 ， 不 需要 进行 难以 测试 的 复杂 编程 。 下 面 列 
出 信号 级 识别 存在 的 几 个 问题 。 基 于 外 观 的 识别 方法 比较 简单 ， 可 用 大 量 的 图 像 进行 训练 和 
测试 。 这 种 方法 已 经 取得 了 较 大 的 成 果 ， 最 显著 的 成 果 在 于 人 脸 识 别 方面 。 在 此 我 们 讨论 该 
方法 在 人 脸 识别 方面 的 应 用 。 

通过 外 观 进行 识别 的 方法 简 述 如 下 : 

* 在 训练 或 学 习 阶 段 ， 建 立 标记 图 像 数 据 库 。DB = {<D0, Loe. .x}。 其 中 [是 第 /个 训练 

图 像 ， 而 是 它 的 标记 。 

。 把 未 知 图 像 1, 与 数据 库 中 的 图 像 进行 比较 , 把 最 接近 的 训练 图 像 1 的 标记 LL 赋 给 未 知 目标 ， 

从 而 识别 出 这 个 未 知 目标 。 最 接近 的 训练 图 像 1 可 通过 使 欧 几 里 得 距离 4[]-Z [最 小 化 

KME, KERR, o L 最 大 化 来 确定 ， 这 二 者 都 在 第 5 章 中 进行 了 定义 。 

当然 每 一 步 都 有 要 强调 的 复杂 性 因素 。 

© 训练 图 像 必 须 是 被 识别 目标 的 典型 实例 。 在 人 脸 识别 中 (其 他 多 数目 标 也 如 此 )， 训 练 

图 像 必 须 包括 表情 变化 、 照 明 变 化 、 以 及 头 部 在 2D 和 3D 中 的 轻微 转动 。 

。 目 标 区 域 要 仔细 选择 ， 所 有 的 人 脸 位 置 和 尺寸 必须 大 至 相同。 否则 ， 需 要 对 位 置 和 尺寸 

参数 进行 确定 。 

*。 因 为 这 个 方法 并 未 把 目标 从 背景 中 分 离 出 来 ， 所 以 结果 中 将 包含 背景 ， 在 训练 中 应 该 认 

真 考虑 这 一 点 。 

。 对 人 脸 识 别 来 讲 ，100 x 100 的 图 像 大 小 已 经 足够 了 。 即 使 图 像 只 有 100 x 100 这 么 小 ， 所 

有 图 像 的 空间 维 数 也 是 10 000。 训 练 样本 的 数量 有 可 能 比 这 小 很 多 ， 因 此 应 该 使 用 一 些 

降低 维 数 的 方法 。 

大 家 应 该 考虑 到 戴 眼镜 和 不 戴 眼镜 的 人 脸 差 别 ， 或 者 带 天 线 和 不 带 天 线 汽 车 的 差别 。 如 
果 出 现 其 他 不 相关 的 变化 ， 还 能 检测 到 这 些 差别 吗 ? 

现在 考虑 降低 目标 特征 数量 这 一 重要 问题 。 对 于 人 脸 识别 ， 维 数 可 以 从 100 x 100 降 低 到 
15， 但 识别 率 仍然 维持 在 97%。 对 R x C 的 图 像 空 间 ， 第 5 章 对 不 同 基 底 进 行 了 讨论 ， 并 说 明 一 
幅 图 像 可 以 表示 为 有 意义 的 图 像 之 和 ， 如 跳 变 边缘 图 和 波纹 图 等 。 另 外 ， 当 图 像 被 表示 为 标 
维 正 交 基 的 线性 组 合 时 ， 图 像 能 量 恰好 是 系数 平方 之 和 。 

1. 训练 图 像 集 的 基 

假设 能 够 找到 具有 下 列 性 质 的 一 组 标准 正 交 基 图 像 B: 

1. B={F，F,，...，F,}， 其 中 m 远 小 于 N=RxC，。 

2. 在 下 列 意义 下 ， 用 这 组 基 进 行 图 像 表示 的 质量 平均 来 说 是 令 人 满意 的 。 对 于 训练 集中 
AM RT. WA: 


TP = aj Fi + ajoFy +--+ + ajmFn 


和 ， 
2 (lhe = uIP Mail)’ < P% 


j=l 
其 中 及 是 原始 图 像 1 的 近似 图 像 ，1 是 m 个 基 图 像 的 线性 组 合 。 
图 14-39 中 上 面 一 行 是 6 幅 训练 图 像 ， 图 像 来 自 Weizmann 学 院 的 数据 库 。 中 间 4 幅 是 推导 
出 来 的 基 图 像 ， 用 来 进行 人 脸 表 示 。 其 中 最 左 侧 是 所 有 训练 样本 的 平均 结果 。 下 面 一 行 的 6 幅 
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人 脸 图 像 ， 是 4 个 基 向 量 的 线性 组 合 表示 的 结果 ， 与 原始 的 6 幅 图 像 相 对 应 。 几 个 不 同 的 研究 
项 目 表 明 , m = 15 或 m = 20 幅 基 图 像 足 够 用 来 表示 数据 库 中 的 人 脸 图 像 (例如 Pentland (1986) 
研究 组 3000 张 人 脸 图 像 的 数据 库 ) ， 用 已 近似 表示 7 的 平均 精度 在 5% 以 内 。 结 果 ， 用 近似 图 像 
进行 匹配 与 用 原 图 像 进行 匹配 将 产生 基本 相同 的 结果 。 要 强调 的 是 ， 对 于 图 14-39 的 数据 库 ， 
每 幅 训练 图 像 在 内 存 中 可 以 只 用 4 个 数值 表示 ， 这 样 对 未 知 图 像 就 能 够 进行 有 效 比 较 。 只 要 4 
个 基 向 量 保存 在 内 存 中 ， 需 要 时 就 可 以 重新 生成 与 原始 人 脸 图 像 非 常 近似 的 图 像 。( 注 意 ， 第 
一 个 基 向 量 是 原始 人 脸 图 集 的 平均 图 ， 而 不 是 标准 正 交集 中 的 一 个 基 。) 








图 14-39 (图像 数据 库 由 Weizmann 学 院 Yael Moses 提 供 ， 处 理 过 的 图 像 由 John Weng 提 供 ) 
(上 行 ) 6 幅 训练 图 像 ， 人 脸 图 像 库 中 某 人 的 脸 部 图 像 
(中 间 行 ) 平均 训练 图 像 和 从 散布 矩阵 推导 出 的 三 个 最 重要 的 特征 向 量 
(下 行 ) 用 中 间 4 幅 图 像 的 线性 组 合 对 上 面 一 行 图 像 进 行 表示 的 结果 
2. 计算 基 图 像 
有 了 基 集 B， 使 需要 的 内 存 空 间 大 大 压缩 ， 同 时 也 加 快 了 计算 速度 ， 因 为 m 要 比 原始 图 像 
的 像素 数量 N 小 很 多 。 称 基 图 像 , 为 训练 样本 集 的 主 元 (principal component). 下 面 的 算法 
14.4 列 出 了 使 用 主 元 进行 基于 外 观 的 识别 步骤 。 识 别 包括 两 部 分 : 离线 训练 阶段 和 在 线 识别 
阶段 。 训 练 阶段 中 的 第 一 步 是 ， 计 算 训练 图 像 的 平均 图 像 ， 产 生 差 图 像 集 合 @， 集合 中 的 每 
个 元 素 都 是 某 幅 训练 图 像 和 平均 图 像 的 差 。 如 果 把 每 幅 差 图 ®, 视 为 N 维 向 量 ， ABZ OREN T 
M 列 矩阵 。 下 一 步 是 计算 训练 图 像 的 协 方差 矩阵 Z。。 由 定义 可 知 ， 在 所 有 训练 图 像 上 ， Loli, 
引 是 第 ; 企 像素 的 方差 ， 而 Ze[i, 四 是 第 i 个 像素 和 第 j 个 像素 的 协 方差 。 因为 已 经 算出 了 平均 图 像 
和 差 图 像 ， 所 以 协 方差 矩阵 可 以 定义 为 : 
Le = TO (14-5) 
这 个 协 方差 矩阵 非常 大 ， 为 N x N， 其 中 N 是 图 像 像 素数 ， 典型 值 是 256 x 256 其 至 512 x 512, 
如 果 直 接 使 用 的 话 ， 在 下 一 步 计 算 特 征 向 量 和 特征 值 时 将 非常 耗费 时 间 。 (关于 主 元 算法 ， 请 
参见 《Numerical Recipes in C), Vetterling,1992。) 我 们 利用 下 面 的 矩阵 >o' 代 替 上 面 的 >。。 
ry = O07 (14-6) 
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这 个 矩阵 要 小 很 多 ， 为 m x m。X。' 的 特征 向 量 和 特征 值 与 > 的 特征 向 量 和 特征 值 的 关系 是 : 


LoF =AF ( 14-7) 
oF’ = FF (14-8) 
F=0'F’ (14-9) 


其 中 4 是 Ze 的 特征 值 向 量 ，F 是 Ze 的 特征 向 量 ，F' 是 Ze 的 特征 向 量 。 

这 里 介绍 的 主 元 分 析 方法 ， 在 人 脸 识别 中 的 应 用 效果 显著 (参见 Kirby 和 Sirovich (1990), 
Turk 和 Pentland (1991), 以 及 Swets 和 Weng (1996))。 有 人 怀疑 对 于 高 频 变 化 的 情况 ， 这 个 
方法 就 不 大 适用 ， 因 为 这 时 即使 图 像 产生 微小 变化 ， 自 相关 作用 也 会 下 降 很 快 ， 这 就 加 重 了 
目标 分 割 的 要 求 。 脸 部 图 像 不 会 遇 到 这 个 问题 。Swets 和 Weng (1996) 针对 很 多 无 纹理 的 目 
标 得 出 了 很 好 的 结果 ， 而 Murase 和 Nayar (1995) 针对 人 脸 也 得 到 了 很 好 的 结果 。 在 以 10" 间 
隔 摄取 的 训练 图 像 基 础 上 ， 他 们 能 够 以 2 度 的 精度 内 插 估 计 出 3D 目 标的 位 姿 。 

Turk 和 Pentland (1991) 对 上 面 关 注 的 两 个 问题 提出 了 解决 方法 。 首 先 ， 他 们 采用 第 9 章 
中 提 到 的 运动 技术 ， 把 头 部 从 视频 序列 中 分 割 出 来 ， 这 样 就 能 分 割 出 脸 部 ， 进 而 对 图 像 尺 十 
进行 规范 化 处 理 。 其 次 ， 他 们 采用 宽 高 斯 滤波 方法 对 图 像 像素 进行 再 次 加 权 处 理 ， 使 外 围 背 
景 的 像素 值 近 似 为 零 ， 同 时 保留 中 间 的 人 脸 像素 值 。 

算法 14.4 基于 主 成 分 基 的 外 观 识别 

离线 训练 阶段 

输入 含 M 个 标记 训练 图 像 的 集合 I， 

产生 基 集 B 和 每 幅 图 像 的 系数 向 量 。 

I= {1， Io wm Ty EWA REA. (输入 ) 

B={F,, Fis = F Fé [A] EE (输出 ) 

Aj= [ai，az，…，qdm 是 图 像 7 的 系数 向 量 。( 输 出 ) 

1. Linean = Mean(I). 

2. D = (PID, = l-im) ARREA. 

3. Lo FON Dp Ty EEE. 

4. 用 主 元 方法 计算 Ze 的 特征 值 和 特征 向 量 。( 参 见 正文 ) 

5. 选择 m 个 最 重要 的 特征 向 量 ， 构 造 向 量 B 作 为 基 集 ; 从 最 大 的 特征 值 开始 ， 按 特 
征 值 减 序 依次 选择 对 应 的 特征 向 量 。 

6. 用 基 向 量 的 线性 组 合 表 示 训 练 图 像 ， 即 

六 = anFit+ aF, + We = e 

在 线 识 别 阶段 

输入 基 向 量 集合 B， 系 数 集合 {Aj} 的 数据 库 ， 测 试图 像 I,。 

输出 I 的 类 标记 。 

1. 计算 I 的 系数 向 量 A,= [au ，ao，…，am]。 

2. 在 集合 {Aj} 中 找到 向 量 A, 的 h 个 最 近邻 。 

3. 通过 h 个 最 近邻 的 标记 ， 确 定 I 的 类 别 (如 果 近 邻 很 远 或 与 标记 不 一 致 的 话 ， 就 
有 可 能 被 拒绝 )。 








获得 10 幅 人 脸 图 像 和 10 幅 风景 图 像 ， 所 有 图 像 大 小 都 是 R x C。 计算 所 有 图 像 对 之 间 的 欧 
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儿 里 得 距离 ， 把 距离 显示 在 20 x 20 的 上 三 角 和 矩阵 中 。 这 一 组 人 脸 很 相近 吗 ? 风 景 图 像 呢 ?最 
nn se di Set oer ee salam 





er JB ka EUR B={(;, L) etridt HVA REA. BE ERE 
规范 化 的 ， 即 IDNI=1。(a) 证 明 当 了 .oz 取 最 大 值 时 ， Il 一 吉 取 最 小 值 。(b) 如 果 没 有 IZDI = 1 
的 假设 ， 上 述 结论 是 不 正确 的 。 为 什么 ? 
3. 最 佳 分 类 与 快速 搜索 i 
主 元 分 析 使 我 们 能 够 用 压缩 了 的 方式 表示 训练 模式 的 子 空间 。 算 法 14.4 中 ， 表 示 训 练 数 据 
520 的 最 佳 基 称 为 最 佳 描述 特征 (most expressive feature, MEF). John Weng 的 工作 已 经 证 明 ， 尽 
S21) 管 最 佳 描述 特征 能 够 理想 地 表示 训练 图 像 的 子 空间 , 却 不 能 很 好 地 表示 不 同类 图 像 间 的 差异 。 
Weng 提 出 最 佳 分 类 特征 (most discriminating feature, MDF) 的 概念 ， 通过 判别 分 析 可 以 推导 
出 最 佳 分 类 特征 。MDF 重 点 在 于 区 别 不 同类 目标 的 图 像 差 异 。 图 14-40 对 MEF 和 MDF 做 了 对 
比 。 原 始 数据 坐标 是 (x ，x,)。y1 是 发 生 最 大 变化 的 方向 ，y, 与 yj 正 交 。 因 此 y, 和 y, 坐 标 是 景 
佳 描 述 特 征 。 向 量 的 原始 类 别 是 通过 主 次 轴 分 别 与 y, 和 y, 重 合 的 椭圆 表示 的 。 (第 3 章 首 次 给 出 
了 2D 情 况 下 寻找 主 次 轴 的 算法 。 ) 在 两 类 之 间 ，w 和 y 的 阔 值 很 难 判别 : 经 判别 分 析 算 出 的 
MDF 轴 zi 和 z ， 人 允许 基于 zi 的 冰 值 实现 对 训练 样本 的 理想 分 离 。 


MEF 向 量 





Yı 





MDF 向 量 


pla ae 没有 能 分 离 两 个 类 
别 的 MEF 值 
Z 


图 14-40 由 方差 矩阵 的 特征 向 量 确定 的 最 佳 描述 特征 ， 可 以 很 好 的 表示 数据 ， 
但 不 能 很 好 的 表示 类 间 差 异 。 可 以 通过 判别 分 析 来 找到 子 空 间 ， 这 些 
子 空间 强调 类 间 差 异 (J.Swets 和 J.Weng 提 供 ) 
Weng 及 其 同事 对 特征 空间 外 观 识别 方法 做 出 的 另 一 个 改进 是 ， 提 出 了 搜索 树 构造 程序 。 
用 该 方法 在 含 S 个 训练 样本 的 数据 库 中 寻找 最 近邻 ， 所 用 的 搜索 时 间 是 O(log,S )。 第 4 章 介绍 
过 用 于 目标 分 类 的 决策 树 。 对 于 树 上 的 每 个 决策 点 ， 把 一 幅 未 知 图 像 投影 到 最 佳 分 类 子 空间 ， 
需要 对 下 一 步 的 分 支 做 出 决策 。 在 决策 树 的 不 同 节点 所 用 的 MDF， 随 着 训练 样本 的 不 同 而 不 
同 ， 而 且 能 够 转向 所 需要 的 特殊 分 支 决策 。 这 是 最 近 发 展 起 来 的 理论 ， 感 兴趣 的 读者 最 好 参 
[622] 考 有 关 文 献 以 了 解 更 详细 的 内 容 。 
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(a) 得 到 300 幅 人 脸 图 像 ， 把 每 幅 图 像 用 R x C 维 的 向 量 表示 。(b) 计算 这 300 幅 样本 图 像 
的 散布 矩阵 和 平均 图 像 。(c) 计算 散布 矩阵 的 m 个 最 大 特征 值 和 相对 应 的 m 个 特征 向 量 ， 使 散 
布 矩 阵 95% 的 能 量 得 以 保留 (d) 随机 选择 5 幅 原始 人 脸 图 像 ， 把 它们 表示 成 m 个 最 佳 特征 向 量 
的 线性 组 合 。(e) 显示 算出 的 5 幅 近 似 图 像 并 与 原 图 像 做 比较 。 


14.5 参考 文献 

网 格 模型 来 自 计 算 机 图 形 学 ， 在 计算 机 图 形 学 中 常 称 为 多 边 形 网 格 。Foley 等 人 (1996) 
的 图 形 学 教材 是 这 方面 很 好 的 参考 资料 。 表 面 - 边 - 顶点 模型 参考 的 是 麻 萨 诸 塞 大 学 70 年 代 的 
VISIONS 系 统 。 本 书 中 的 结构 模型 参考 了 Camps (1992) 近期 的 工作 。 广 义 圆 柱 体 模 型 首先 
由 Binford 提 出 ， Nevatia 和 Binford (1977) 用 来 处 理 深度 数据 。Rom 和 Medioni (1993) 的 文 
章 讨论 了 从 2D 数 据 计 算 圆 柱 体 。 八 又 树 首先 由 Hunter (1978) 提出 ， 并 由 Jackins 和 Tanimoto 
(1980) 进行 了 更 进一步 的 推广 。 这些 在 Samet (1990) 的 书 中 进行 了 详细 介绍 。 超 二 次 曲面 
模型 的 讨论 绝 大 部 分 参考 Gupta、Bogoni 和 Bajcsy (1989) 的 工作 ， 左 心室 的 例子 参考 的 是 
Park、Metaxas 和 Axel (1996) 的 工作 ， 在 可 变形 模型 讨论 中 也 用 到 了 这 个 例子 。 

视 类 模型 概念 一 般 认 为 应 归功 于 Koenderink 和 van Doorn (1979)。Camps 等 人 (1992), 
Pulli (1996) 和 Costa (1995) 使 用 视 类 模型 识别 三 维 目标 。 比 对 匹配 由 Lowe (1987) 提出 ， 
并 由 Huntenlocher 和 Ullmann (1990) 进行 了 详细 分 析 。 3D-3D 比 对 内 容 参 考 了 Johnson 和 
Hebert (1998) 的 工作 ， 而 2D-3D 讨 论 参考 了 Pulli 和 Shapiro (1996) 的 工作 。 对 平滑 目标 比 
对 识别 问题 ， 参 考 的 是 Jin-Long Chen 和 Stockman (1996) 的 工作 ， 也 涉及 Basri 和 Ullman 
(1988) 的 原始 工作 。 匹 配 棒 - 盘 - 团 模 型 在 Shapiro 等 人 (1984) 的 工作 中 有 所 描述 。 相 关 匹 
配 在 Shapiro 和 Haralick (1981, 1985) 中 进行 了 汇总 讨论 。 相 关 索 引 在 Costa 和 Shapiro (1995) 
的 工作 中 可 以 找到 。 功 能 目标 识别 参考 的 是 Stark 和 Bowyer (1996) 的 工作 。 

Kirby 和 Sirovich (1990) 研究 了 脸 部 图 像 压缩 的 问题 ， Turk 和 Pentland (1991) 进行 了 
更 有 效 的 脸 部 识别 研究 。Swets 和 Weng (1996) 提出 一 般 的 学 习 系 统 ， 称 为 SHOSLIF， 他 们 
对 主 元 方法 进行 了 改进 ， 通 过 采用 MDEF 并 且 构 造 出 树 结构 的 数据 库 ， 可 以 在 log,N 时 间 内 搜索 
出 最 近邻 。Murase 和 Nayar (1994) 也 提出 一 种 有 效 的 搜索 方法 ， 在 以 10" 间 隔 摄 取 的 训练 视 
图 基础 上 ， 以 2 的 精度 通过 内 播 估计 出 3D 目 标的 位 姿 。 另 外 针对 几 种 目标 但 不 是 人 脸 ， 发 现 
20 维 或 者 更 少 维 的 特征 空间 就 能 保证 有 很 好 的 性 能 。 本 章 通过 外 观 进行 识别 的 内 容 大 部 分 参 
考 Swets 和 Weng (1996) 的 工作 ， 并 多 次 引用 Turk 和 Pentland (1991) 的 工作 。 

能 量 最 小 化 在 70 年 代用 于 轮廓 平 请 。 但 是 Kass、Witkin 和 Terzopoulos (1987) 提出 活动 
轮廓 的 论文 激 起 了 其 他 研究 人 员 的 兴趣 。 很 快 就 有 了 拟 合 以 及 跟踪 表面 和 体积 的 应 用 情况 。 
Amini A (1988) 利用 动态 规划 使 活动 轮廓 与 图 像 拟 合 。 在 医疗 图 像 方面 的 例子 参见 Yue 等 
(1995 )。 物 理学 模型 和 可 变形 模型 的 研究 和 应 用 进展 很 快 ， Chen 和 Medioni (1995) 以 及 Park、 
Metaxas 和 Axel (1996) 的 工作 就 是 两 个 很 好 的 实例 。 


1. Amini, A., S. Tehrani, and T. Weymouth. 1988. Using dynamic programming for 
minimizing the energy of active contours in the presence of hard constraints. Proc. 
IEEE Int. Conf. Comput. Vision, 95—99. 

2. Basri, R., and S. Ullman. 1988. The alignment of objects with smooth surfaces. Proc. 
2nd Intern. Conf. Comput. Vision, 482-488. 
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第 15 章 虚拟 现实 


假设 外 科 医 生 要 做 一 个 去 除 病 人 脑 部 肿瘤 的 手术 计划 。 在 诊断 过 程 中 ， 得 到 了 病人 头骨 
和 大 脑 的 三 维 (3D) Kik. BEWAAR (Virtual Reality, VR) 技术 ， 外 科 医 生 可 以 在 三 
维 数据 模型 上 进行 演练 ， 而 不 需要 实际 的 对 象 。 通 过 尝试 不 同 的 入 口 路 径 、 不 同 的 操作 手术 ， 
可 以 为 病人 选择 一 种 最 好 的 治疗 方案 。 如 果 把 总 的 大 脑 图 谱 〈atlas ) 与 三 维 图 像 数 据 对 应 起 
来 ， 使 外 科 医 生 可 以 分 层 观察 大 脑 结 构 ， 并 对 不 同 手术 方案 的 结果 进行 评价 ， 以 免 损 坏 重 要 


的 大 脑 组 织 。 虚 拟 现实 技术 推动 了 虚拟 外 科 手 术 的 发 
展 。 图 15-1 显 示 的 是 一 幅 用 于 虚拟 现实 系统 的 大 脑 模 
型 绘制 图 。 

虚拟 现实 是 一 个 新 兴 领 域 ， 一 般 认 为 它 是 计算 机 图 
形 学 的 一 个 子 领域 ， 因 为 计算 机 生成 的 图 像 是 虚拟 现 
实 系统 的 一 个 重要 组 成 部 分 。 虚 拟 现实 应 用 系统 本 身 
非常 重要 ， 应 该 进行 研究 。 在 很 多 方面 虚拟 现实 系统 
与 本 书 的 内 容 也 是 密切 相关 的 ， 例 如 : (a) 需要 获取 图 
像 和 处 理 图 像 ; (b) 需要 高 质量 的 立体 显 像 ， 使 用 户 
在 虚拟 环境 中 有 身 临 其 境 的 感觉 ; (c) 采用 共同 的 数 
学 模型 ， 使 实际 空间 与 模型 空间 的 3D 点 相对 应 ; (d) 
有 时 需要 用 机 器 视觉 技术 测量 用 户 或 其 他 实际 物体 的 





图 15-1 根据 3D 网 格 模型 绘制 出 的 大 脑 图 
像 ， 模 型 来 自 病人 的 核磁 共振 图 
像 (华盛顿 大 学 人 脑 项 目 组 提供 ) 


位 置 。 在 仿真 器 工程 〈 特 别 是 飞行 模拟 器 )、 遥 操作 及 计算 机 游戏 方面 ， 虚 拟 现实 技术 已 经 逐 


渐 走向 成 熟 。 
15.1 虚拟 现实 系统 的 特征 


本 节 首 先 列 出 虚拟 现实 系统 或 虚拟 环境 (Virtual Environment, VE) 的 重要 特征 ， 然 后 


介绍 几 个 的 应 用 实例 。 


o 操作 者 对 模型 进行 操作 ， 模 拟 对 实际 物体 的 各 种 可 能 的 操作 。 
“ 具有 高 分 辩 率 、 高 速度 的 显示 技术 ， 使 用 户 深 陷 虚 拟 环境 之 中 ， 并 有 身 临 真实 环境 的 感 


觉 。 


* 用 户 能 与 模型 环境 顺利 交互 ， 并 能 使 模型 环境 发 生 改 变 。 

“ 3D 视觉 反馈 起 相当 大 的 作用 。 为 了 更 好 地 观察 目标 ， 虚 拟 现实 系统 一 般 允 许 用 户 改变 
观察 视点 ， 或 者 控制 目标 物 进行 旋转 和 平移 。 尽 管 视觉 反馈 很 重要 ， 但 其 他 反馈 (如 触 
觉 反 馈 、 运 动 觉 反 馈 、 力 觉 反馈 或 听觉 反馈 ) 也 应 该 有 ， 这 样 才能 使 用 户 感到 物体 的 存 


在 或 者 听 到 它们 的 碰撞 声 ， 等 等 。 

图 15-2 说 明 操 作者 在 实际 环境 中 进行 操 
作 的 情况 ， 而 图 15-3 说 明 人 在 虚拟 环境 中 进 
行 操作 的 情况 。 


操作 者 


操作 
一 一 一 ma | 
感知 


图 15-2 实际 环境 下 的 操作 
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图 15-3 虚拟 环境 下 的 操作 





“ 人们 在 读书 时 会 被 书 中 的 情节 深 深 地 吸引 。 参 考 上 述 虚 拟 现实 系统 的 4 个 特征 ， 考 虑 这 
种 读书 情况 具有 上 述 哪些 特征 ? 不 具有 哪些 特征 ? (注意 有 的 书 允 许 读者 在 不 同 的 续 
篇 中 进行 选择 ) 

“人们 看 电影 时 会 沉浸 于 其 中 ,特别 是 当 看 宽 荧 幕 电影 或 立体 电影 时 。 参 考 上 述 虚 拟 现 实 
系统 的 4 个 特征 ， 考 虑 这 种 看 电影 情况 具有 上 述 哪些 特征 ? 不 具有 哪些 特征 ? 

“ 你 知道 或 者 玩 过 具有 上 述 4 个 特征 的 视频 游戏 吗 ? 请 加 以 说 明 。 


15.2 虚拟 现实 的 应 用 

虚拟 现实 常常 与 新 的 应 用 需求 相 联系 ， 而 新 硬件 (一般 价 钱 较 贵 ) 的 出现 使 这 些 应 用 成 
为 可 能 。 下 面 的 几 个 常见 系统 ， 都 在 某 种 程度 上 采用 了 虚拟 现实 技术 。 
15.2.1 建筑 漫游 

用 户 可 以 和 房屋 建筑 模型 进行 交互 ， 在 房屋 内 虚拟 行走 ， 透 过 虚拟 窗户 欣赏 窗外 的 虚拟 
风景 。 如 果 是 杰 斐 示 (Jefferson) 的 Monticello 建 筑 模 型 ， 用 户 能 够 看 到 杰斐逊 的 古董 收藏 品 、 
独一无二 的 床 及 炮弹 钟 。 许 多 这 样 的 历史 古迹 和 虚拟 博物 馆 目前 正在 进行 数字 化 。 简 单 情况 
下 ， 用 户 可 以 通过 万 维 网 及 一 般 的 平面 显示 器 ， 走 进 这 些 虚拟 环境 。 也 许 不 允许 用 户 修改 
Monticello 建 筑 模型 ， 但 用 户 可 以 捡 起 并 查看 其 中 的 古玩 。 如 果 用 户 计划 建 一 座 真 正 的 房子 ， 
在 建成 之 前 他 可 以 修改 建筑 模型 ， 还 可 以 改变 墙 面 设计 和 家 具 布 局 。 

与 建筑 漫游 类 似 的 是 虚拟 飞越 (Flyby)。 人 们 能 够 欣赏 美国 亚利桑那 州 的 大 峡谷 ， 就 好 
比 在 峡谷 上 面 飞 行 一 样 。 简 单 情 况 下 ， 用 户 只 是 乘坐 飞机 的 一 名 旅客 ， 自 己 决定 不 了 视点 : 
复杂 情况 下 ， 用 户 是 飞行 员 ， 可 以 改变 路 线 并 以 多 种 方式 欣赏 美景 。 
15.2.2 飞行 仿真 

利用 仿真 飞行 器 ， 用 户 能 控制 飞行 器 飞 过 各 种 地 形 ， 并 在 各 种 机 场 起 飞 和 着 陆 。30 年 来 ， 
越 来 越 多 的 人 们 满 头 大 汗 ， 心 情 激动 地 走出 仿真 训练 器 ， 这 说 明 他 们 曾 深 深 地 沉浸 在 虚拟 环 
境 之 中 。 
15.2.3 解剖 组 织 的 交互 式 分 割 

虚拟 现实 系统 可 以 辅助 进行 医学 个 体 识别 ， 以 及 根据 3D 数 据 建立 解剖 模型 。 换 句 话说， 
虚拟 现实 系统 支持 交互 式 组 织 分 割 。 例 如 ， 通 过 立体 图 像 向 用 户 显示 三 维 MRI 数据 。 通 过 与 
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这 些 数据 进行 交互 ， 用 户 可 以 在 血管 中 心 或 心脏 周围 做 一 系列 的 点 标记 。 系 统 中 需要 的 立体 
显示 设备 和 3D 输 入 设备 将 在 15.5 节 进行 介绍 。 529 
现在 出 现 了 更 多 的 虚拟 现实 系统 ， 如 病痛 管理 系统 、 恐 惧 症 治疗 系统 、 弱 视 辅助 系统 、 
驾驶 仿真 器 、 科 学 可 视 化 及 虚拟 教室 等 。 图 
15-4 所 示 的 是 目前 在 华盛顿 大 学 的 虚拟 现实 
项 目 : 动态 虚拟 运动 场 (Dynamic Virtual 
Playground)。 虚 拟 运动 场 是 一 个 原型 系统 ， 
用 来 研究 在 虚拟 情况 下 同时 进行 的 多 项 比赛 
活动 。 它 可 用 来 模拟 学 校 实验 室 ， 其 中 每 组 

学 生 参与 不 同 的 研究 项 目 。 


15.3 增强 现实 


承包 商 如 果 要 重新 建立 现 有 场所 的 模 
型 ， 需 要 知道 当前 水 管 、 煤 气管 道 和 电路 的 
人 ee ie co mr penen 用 户 可 在 
可 以 得 到 这 些 数据 。 下 面 的 情形 是 一 个 增强 inion Penance! i 
现实 (Augmented Reality, AR) (又 称 为 混 PEDER (华盛顿 大 学 HIT 实验 室 提 供 ) 
合 现 实 (Mixed Reality ) ) 的 实例 。 承 包 商 戴 着 头 戴 式 显 示 器 (head-mounted display, HMD), 
i BL AG Hn ZE te Pt AB BY Bos By TT. MEA, gk ETE 
线 ; 当 他 看 向 墙 面 时 ， 他 看 到 的 是 表示 电路 的 红线 和 表示 水 管 的 蓝 线 。 在 某 种 意义 上 说 ， 增 
强 现实 使 承包 商 具 有 超人 的 能 力 ， 他 的 视力 能 穿 透 墙壁 ! 

建立 这 样 的 增强 现实 系统 需要 解决 如 下 问题 : 

* 建立 物 体 的 3D 模 型 ， 以 增强 实际 视图 。 

“通过 标定 使 实际 工作 空间 与 3D 模 型 空间 对 应 起 来 。 

“跟踪 用 户 姿 态 ， 以 确定 用 户 在 实际 工作 空间 中 的 视点 。 

* 实时 显示 的 内 容 ， 是 实际 图 像 和 基于 模型 生成 的 计算 机 图 形 相 结合 的 产物 。 

* 对头 部 运动 的 响应 时 间 以 及 图 像 与 图 形 之 间 的 配 准 精度 ， 会 严重 影响 系统 的 有 效 性 。 

增强 现实 环境 如 图 15-5 所 示 ， 请 把 该 图 与 本 章 中 的 其 他 示 图 进行 对 比 。 增 强 现实 有 很 多 
用 途 ， 下 面 是 它 的 几 种 应 用 情况 : 

“增强 现实 辅助 外 科 手 术 。 对 实际 病人 做 手术 的 外 科 医 生 要 观察 CAT 扫描 数据 ， 包 括 根 
据 病 人 活体 图 片 设计 的 手术 路 径 计 划 (这 个 计划 可 能 已 经 通过 前 面 的 虚拟 现实 系统 制定 
eT). 

“在 个 人 电脑 (PC) 的 主板 检查 中 ， 检 查 人 员 把 一 块 新 的 PC 主板 与 CAD 模 型 做 比较 ， 证 
实 所 有 要 求 的 元 器 件 和 引线 齐全 。 主 板 要 精确 放 在 一 个 夹具 中 ， 使 从 摄像 机 得 到 的 图 像 
与 CAD 模型 精确 配 准 。 检 查 人 员 通 过 一 台大 显示 器 观察 图 像 。 

“汽车 驾驶 员 观 看 显示 器 ， 显 示 器 显示 前 面 的 地 形 特 征 。 仪表 盘 内 的 放映 机 把 建筑 物 和 街 
道 的 名 字 投 影 到 挡 风 玻璃 上 。 

* 几 个 人 在 开会 ， 想 对 他 们 建立 的 计算 机 模型 进行 讨论 。 他 们 要 能 看 到 模型 ， 指出 并 讨论 
它 的 特点 ， 互 相 还 能 看 到 对 方 及 所 在 的 环境 。 远 程 会 议 就 属于 这 种 情况 ， 参加 会 议 的 人 
有 的 离 会 场 很 各 远 ， 他 们 不 仅 想 看 到 计算 机 模型 ， 还 想 看 到 其 他 参加 会 议 的 人 员 。 
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图 15-6 是 一 个 远程 会 议 系统 。 用 
户 的 桌面 上 放 了 两 张 卡 。 每 张 卡 背 
景 为 白色 ， 上 面 有 一 个 方形 黑色 区 
S531) 域 。 黑 色 区 域内 显示 一 幅 人 脸 图 像 。 
用 计算 机 视觉 技术 找到 卡片 ， 用 统 
计 模 式 识 别 方法 识别 出 卡 内 的 模式 ， 
从 而 确定 每 张 卡 的 含义 。 利 用 增强 
现实 技术 ， 远 端 人 员 的 图 像 显 示 在 
一 张 卡 上 ， 要 讨论 的 模型 图 片 显示 
在 第 二 张 卡 上 。 
图 15-7 显 示 同 一 房间 的 两 个 人 ， 
正 通过 透明 护 目镜 观看 网 页 ， 他 们 正 图 15-6 增强 现实 技术 在 远程 会 议 中 的 应 用 《华盛顿 大 学 HIT 
在 讨论 这 些 网 页 。 实验 室 提供 ) 








图 15-7 两 人 戴 着 透明 的 、 增 强 现实 护 目镜 ( 右 图 )。 他 们 能 够 看 到 真实 世界 ， 也 能 够 看 
到 计算 机 生成 的 图 像 。 他 们 两 个 正在 观看 上 面 的 网 页 ， 网 页 就 像 是 在 空间 漂浮 着 
(华盛顿 大 学 HIT 实 验 室 提供 ) 

15.4 遥 操 作 

站 操作 (teleoperation) 是 一 个 工程 学 科 ， 它 极 大 地 丰富 了 虚拟 现实 的 研究 内 容 ， 特 别 是 - 
通过 传感器 和 执行 器 把 操作 者 与 环境 合 二 为 一 。 请 将 图 15-8 与 本 章 其 他 图 做 个 比较 ， 看 看 它们 

之 间 有 什么 异同 。 利 用 遥 操 作 技术 ， 操 作者 能 够 对 远程 实际 环境 中 的 工作 情况 进行 控制 ， 而 机 
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器 人 或 类 似 机 器 人 的 机 械 根据 操作 者 的 命令 在 实际 环境 中 完成 操作 。 成 功 应 用 的 例子 如 下 : 
1. 在 美国 火星 探 路 者 控制 任务 中 ， 操 
作者 通过 计算 机 向 火星 上 的 导航 机 器 人 发 
送 命令 ， 让 它 向 前 走 10 cm 并 抽取 土壤 样 
品 。 附 近 的 登陆 车 (登陆 车 把 机 器 人 运 到 
火星 上 ) 上 面 安 装 有 摄像 机 ， 摄 像 机 摄取 
的 图 像 被 传送 到 地 面 。 由 于 距离 遥远 ， 传 图 15-8 遥 操 作 系统 
送 图 像 和 命令 大 约 需 要 11 分 钟 。 

2. 一 次 小 事故 之 后 ， 在 核电 厂 的 危险 区 域 ， 通 过 无 线 电 通信 ， 操 作者 控制 远程 机 器 人 用 
真空 吸尘器 打扫 放射 性 废物 。 操 作者 戴 着 头 戴 式 显示 器 ， 其 中 显示 的 是 受 污染 区 域 的 情况 ， 
与 机 器 人 身上 安装 的 摄像 机 拍 到 的 实况 一 样 。 用 仿真 杆 模拟 实际 真空 杆 ， 仿 真 杆 内 的 传感器 
测量 杆 的 位 置 和 运动 ， 并 产生 控制 信号 控制 远 处 的 实际 真空 吸尘器 动作 。 

3. 外 科 医 生 进 行 远程 外 科 手 术 ， 颖 合 一 个 类 似 橄 榄 球 的 虚拟 物体 。 传 感 器 精确 记载 这 个 
缝合 过 程 的 运动 参数 ， 然 后 传送 给 远程 机 器 人 ， 远 程 机 器 人 正在 缝合 一 只 真正 的 狗 身上 的 伤 
口 。 这 个 实验 曾经 实现 过 。 要 把 外 科 医 生 的 精湛 手术 传送 到 其 他 到 不 了 的 地 方 ， 在 狗 身上 做 
的 这 个 试验 也 许 是 完成 了 第 一 步 。 

4. (未 来 情景 ) 一 个 动脉 硬化 病人 去 医院 做 清理 动脉 斑 的 手术 。 通 过 MRI 机 得 到 病人 身 
体 的 实时 3D 视 图 。 把 微型 机 器 人 放 入 血管 进行 全 身 血管 的 清理 。 在 以 前 诊断 中 得 到 的 绘制 图 
的 帮助 下 ， 主 治 大 夫 通 过 3D 输 入 设备 指出 脉 管 系统 的 哪个 区 域 需要 清理 。MRI 设 备 然后 就 工 
作 在 交替 模式 ， 一 种 模式 是 像 以 前 那样 用 来 成 像 ， 另 一 种 模式 用 来 控制 微型 机 器 人 在 指定 区 
域内 进行 清理 手术 。 

图 15-9 显 示 的 是 一 个 实际 系统 ，Kyushu 电 力 公司 的 遥控 机 器 人 正在 修理 高 压 电 线 。 

在 讨论 实现 虚拟 环境 所 需 的 设备 及 数学 模型 之 前 ， 我 们 先 给 大 家 讲 一 段 有 趣 的 故事 。 有 人 设 
计 了 一 辆 遥控 铲 士 机 ， 使 远程 操作 者 能 控 
制 对 土壤 、 煤 炭 的 搬运 工作 等 。 操 作者 戴 
着 数据 手套 (data glove)， 其 中 的 传感器 
能 够 测量 手掌 和 手指 的 位 置 ， 系 统 再 把 这 
个 信号 转化 成 控制 铲 士 机 的 信号 。 铲 士 机 
上 有 两 台 摄 像 机 ， 为 操作 者 的 头 戴 式 显示 
器 提供 左 、 右 两 幅 图 像 。 操 作者 用 手 抓 一 
把 桌子 上 的 锯 悄 ， 远 处 的 铲 士 机 将 仿效 这 
个 动作 抓 一 次 实际 工作 环境 中 的 煤炭 。 假 
设 操 作者 鼻子 发 痒 ， 并 用 带 数 据 手 套 的 手 
AEE! 当 这 只 手 向 鼻子 移动 时 ， 实 际 环 
境 中 的 铲 士 机 末端 执行 器 就 会 向 摄像 机 移 - uae 
动 。 图 像 结果 又 通过 头 戴 式 显 示 器 反馈 给 图 15-9 Kyushu 电 力 公司 的 Hot-Line 遥 控 机 器 人 系统 。 琐 








操作 者 ， 他 就 会 感到 脸 上 被 沉重 的 铁 铲 击 控 机 器 人 正 修理 高 压 电 线 (AB) 系统 的 操作 界 
打 了 一 下 ! 这 只 是 虚拟 的 一 击 ， 操 作者 本 m ( 右 图 ) (Blake Hannaford 提供 ， 经 MIT 出 版 
身 没有 受到 伤害 。 但 是 ， 他 心理 上 感到 非 社 允 许 。K.Goldberg 再 版 ，The Robot in the 


常 不 舒服 ， 需 要 把 工作 停 下 来 。 (如 果 系 Garden, Cambridge, MA: The MIT Press, 2000) 
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534] ” 统 设计 的 不 好 ， 就 有 可 能 真 的 损坏 安装 在 铲 士 机 上 的 摄像 机 了 。) 
定义 110 ”时 操 作 指 操作 者 对 远程 实际 环境 中 的 实际 设备 进行 遥控 操作 。 来 自 远程 环 
境 的 反馈 信号 和 来 自 设 备 的 控制 信号 ， 使 操作 者 产生 一 种 幻觉 ， 感 到 自己 处 于 实际 
环境 当中 。 
定义 111 虚拟 现实 是 一 种 为 用 户 合成 的 现实 ,通过 丰富 的 现实 模型 和 输入 输出 设备 ， 
由 计算 机 系统 产生 。 操 作者 感到 是 在 对 实际 物体 进行 操作 ， 而 实际 上 不 是 这 样 。 操 
作者 能 感觉 到 并 能 改变 的 这 个 虚假 环境 称 为 虚拟 环境 。 
定义 112 ”增强 现实 或 混合 现实 是 实际 环境 和 虚拟 环境 相 结合 的 产物 。 计 算 机 系统 合 
成 的 输出 与 对 实际 环境 感知 的 数据 进行 融合 ， 来 加 强人 对 现实 的 理解 。 
定义 113 ”合成 环境 在 遥 操 作 、 增 强 现实 或 虚拟 现实 系统 中 ， 由 计算 机 系统 和 沉浸 式 
LO 设备 为 操作 者 产生 的 一 种 环境 。( 有 时 上 述 几 种 情况 都 被 称 为 虚拟 环境 。) 


15.5 虚拟 现实 设备 

为 了 使 操作 者 沉浸 于 合成 环境 之 中 ， 常 常 要 用 到 一 些 仪器 设备 。 参 考 图 15-10， 可 以 看 出 
它 就 是 前 面 讨论 的 增强 现实 系统 ， 其 中 用 到 的 设备 在 怕 操 作 、 增 强 现实 或 虚拟 现实 中 都 要 用 
到 。 承 包 商 要 重新 建立 一 个 建筑 物 的 模型 ， 他 在 建筑 物 内 走动 ， 并 在 墙 上 做 标记 ， 墙 内 有 水 
管 和 电路 。 承 包 商 通过 透明 HMD 观 看 实际 墙壁 ，HMD 中 的 光学 器 件 把 计算 机 生成 的 图 像 到 加 
到 所 看 到 的 景物 图 像 上 面 ， 计 算 机 生成 的 图 像 中 反映 水 管 和 电路 的 布局 。 





. 系统 
图 15-10 增强 现实 系统 中 操作 者 使 用 的 设备 。 操 作者 对 墙 内 的 管子 位 置 进行 标记 ， 
根据 房屋 CAD 模型 确定 看 不 见 的 管道 位 置 

承包 商 (a) 通过 计算 机 系统 与 增强 的 实际 环境 (b) 交互 ， 计 算 机 系统 (c) 在 图 像 (d,e, f) 
基础 上 附加 其 他 非 视觉 特征 ， 并 使 用 语音 (g, h) 与 承包 商 交 流 ， 承 包 商 自由 走动 并 在 墙 上 做 标 
记 (i). Atha ait, OER (d) 能 看 到 真实 世界 的 图 像 。 位 姿 传感器 (e) 把 人 头 的 位 置 
与 姿态 送 给 计算 机 ,然后 计算 机 利用 这 些 参数 ,参考 水 管 和 电路 的 三 维 CAD 模 型 生成 新 的 图 像 。 
把 生成 的 图 像 投影 到 操作 者 能 看 到 的 镜面 上 (f)， 操 作者 看 到 的 是 对 实际 环境 增强 了 的 视图 。 
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15.5.1 头 戴 式 显示 器 

透明 (see-through) 头 戴 式 显示 器 (HMD) 如 图 15-11 的 左边 所 示 。 分 光 镜 允许 镜 外 实际 
场景 的 光线 进入 ， 但 内 部 作为 反射 镜 反射 来 自 计 算 机 生成 的 图 像 ， 结 果 使 操作 者 看 到 了 增强 
的 图 像 。 注 意 ， 由 于 头 戴 式 显示 器 或 头 戴 内 的 光学 器 件 很 小 ， 显 示 的 图 像 也 很 小 。 另 一 种 设 
计 是 用 不 透明 (opaque) HMD， 如 图 15-11 的 右边 所 示 。 注 意 ， 所 有 的 元 器 件 都 在 HMD 内 部 ， 
并 随 HMD 移 动 ， 包 括 反射 镜 、 摄 像 头 及 图 形 显示 器 。 合 成 图 像 是 由 摄像 机 捕捉 的 数字 图 像 和 
计算 机 生成 的 图 像 综 合 得 出 的 。 透 明 设计 能 够 产生 分 辩 率 较 高 的 图 像 ， 而 不 透明 设计 可 以 更 
好 地 控制 用 户 的 视线 。 





计算 机 生成 计算 机 生成 
的 图 像 的 图 像 
图 形 显示 器 J} 
K ma 、 
2S ha 
a 
1 合成 的 图 像 
| Iz 
meat aan k 
增强 的 实际 
(Es 图 像 ”实际 环境 
a 
分 光 镜 
透明 HMD 不 透明 HMD 
图 15-11 头 戴 式 显示 器 示意 图 
增强 现实 系统 的 配 准 精度 





参见 图 15-10。(a) 当 输出 操作 者 的 头 部 位 姿 信息 时 ， 如 果 位 姿 传感器 的 方位 角 产 生 2* 的 
误差 ， 那 么 操作 者 标记 的 垂直 管线 与 管线 的 实际 位 置 将 产生 多 大 误差 (单位 cm) ? 

(b) 假设 视觉 显示 器 的 视 场 角 是 120"， 覆 盖 500 个 像素 。( 如 果 需 要 ， 你 可 以 假设 摄像 机 
镜头 焦距 为 2.0 cm。 也 可 以 假设 镜头 距离 被 观测 的 墙壁 3m)。 增 强 图 像 中 管子 的 投影 和 管子 在 
图 像 中 的 实际 位 置 之 间 的 水 平 距离 将 怎样 ? 单位 采用 像素 。 


增强 现实 系统 的 配 准 精度 
这 个 问题 与 习题 15.2 有 关系 ， 而 且 使 用 同样 的 设备 ， 讨 论 对 汽车 仪表 盘 的 校 验 问题 。 由 操 
作者 对 真实 仪表 盘 和 增强 现实 系统 中 的 CAD 模 型 做 比较 。 与 前 面 问题 不 同 的 是 ， 所 有 的 CAD 
特征 在 实际 图 像 中 对 操作 者 都 是 可 见 的。 操作 者 要 检查 仪表 是 否 存在 ， 是 否 正常 工作 。 这 些 
仪表 包括 里 程 表 、 油 压 指示 、 无 线 电 等 。 增 强 现实 系统 同时 启动 测试 设备 ， 并 向 操作 者 提供 
信息 ， 告 诉 他 下 一 步 要 找 的 是 什么 。 假 设 视 场 角 是 60"， 镜 头 距离 仪表 盘 大 约 60cm。 和 上 个 问 
题 一 样 假设 位 姿 传感器 方位 角 有 2° 误 差 。(a) 如 果 增 强 图 像 中 有 一 个 表示 无 线 电 按 钮 位 置 的 


535 





oo 


390 RISE 
ee -= ene E 


红 圆圈 ， 由 方位 角 引 起 的 水 平 配 准 误差 是 多 少 ? (b) 如 果 配 准 误差 很 大 ， 请 找 出 一 种 可 使 误 
差 自 动 减 小 的 计算 机 算法 。 你 的 方法 对 任何 HMD 都 有 效 吗 ? (c) 如 果 配 准 误差 控制 的 比较 小 ， 
则 操作 者 的 校 验 工作 做 的 就 会 比较 好 。 请 找 出 一 种 能 自动 产生 较 小 配 准 误差 的 计算 机 算法 。 
你 的 方法 对 任何 HMD 都 有 效 吗 ? (d) 针对 这 个 校 验 问题 需要 用 增强 现实 系统 吗 ? 能 采用 全 自 
动 方法 吗 ? 试 加 以 说 明 。 


习题 15.4 多 操作 者 的 增强 现实 系统 


假设 几 名 外 科 医 生 组 成 一 个 治疗 小 组 。 每 个 人 都 戴 着 HMD， 观 看 县 加 在 实际 病人 视图 上 
的 外 科 计划 和 解剖 结构 ， 这 可 能 吗 ? 解释 为 什么 可 能 或 不 可 能 。 
15.5.2 虚拟 灵巧 手术 

虚拟 现实 系统 支持 基于 模型 的 灵巧 手术 ， 如 图 15-12 所 示 。 操 作者 通过 从 上 面 投影 到 反射 
镜 的 立体 显示 器 ,观看 合成 的 工作 空间 。 
这 样 允 许 双手 在 镜子 下 面 的 实际 3D 工 作 空 
间 自 由 移动 ， 操 作 镜 子 下 面 的 工具 。 需 要 
仔细 跟踪 工具 的 位 姿 ， 并 把 它 的 图 像 反 投 
影 到 镜子 上 ， 使 操作 者 看 到 相应 的 反馈 图 
像 。 图 中 显示 一 位 操作 者 正在 虚拟 器 官 上 
做 切口 .3D 工 具 的 各 种 技术 将 在 后 面 介绍 。 
显然 ，3D 位 姿 的 精度 、 感 知 速度 和 显示 器 
刷新 频率 对 系统 至 关 重 要 。 除 了 常见 的 手 
术 实 习 和 外 科 计 划 方 面 的 应 用 ， 艺 术 家 也 
可 用 这 种 系统 对 3D 模 型 进行 数字 有 雕刻 。 
15.5.3 立体 显示 设备 图 15-12 虚拟 灵巧 手术 台 示 意图 

立体 视觉 也 许 是 感知 10m 内 3D 物 体 的 
最 重要 视觉 信息 ， 同 时 也 是 从 虚拟 现实 系统 反馈 信息 的 主要 手段 。 立 体 显示 一 般 有 两 种 设计 
方式 。 对 不 透明 的 HMD， 可 以 把 分 离 的 图 片 送 到 双眼 ， 利 用 第 12 章 讲 的 数学 模型 ， 以 合适 的 
视差 把 左 、 右 图 合成 起 来 。 不 透明 HMD 可 以 在 无 限 虚拟 世界 产生 较 宽 的 视 场 ， 给 操作 者 带 来 
很 逼真 的 身 临 其 境 的 感觉 。 但 制造 这 些 设备 比较 困难 ， 因 为 需要 适应 不 同 的 操作 者 。 注 意 多 
个 用 户 可 沉浸 于 同样 的 虚拟 世界 ， 每 个 用 户 都 戴 着 HMD ，HMD 各 有 一 个 位 姿 传感器 。 视 点 不 
同 ， 在 用 户 的 眼前 出 现 的 虚拟 环境 也 不 同 。 另 一 种 方法 是 用 常规 的 图 形 显示 器 ， 如 图 15-12 所 
示 ， 随 时 间 交替 显示 左 、 右 图 。 操 作者 戴 着 立体 眼镜 ， 立 体 眼镜 在 时 间 上 与 显示 同步 ， 使 大 
眼 只 看 到 奇数 帧 ， 右 眼 只 看 到 偶数 帧 ， 或 者 左 眼 只 看 到 偶数 帧 ， 右 眼 只 看 到 奇数 帧 。 这 种 随 
时 间 交 替 的 输入 信号 ， 人 眼 感觉 的 效果 是 3D 的 。 用 这 种 方案 设计 的 系统 ， 价 钱 不 贵 且 容易 使 
用 ， 但 身 临 其 境 的 程度 有 限 ， 因 为 所 有 的 图 像 都 限制 在 显示 屏 上 ， 因 此 称 为 鱼缸 虚拟 现实 。 
由 于 显示 屏 的 切削 ， 使 虚拟 世界 的 视图 受到 限制 。 另 外 ， 只 有 一 台 显 示 器 与 一 个 用 户 同步 ， 
而 其 他 观看 显示 的 用 户 不 能 控制 观看 的 视点 ， 即 使 移动 身体 也 控制 不 了 观看 的 视点 。 采 用 环 
形 显示 可 以 减弱 鱼缸 效应 ， 用 户 就 好 比 处 在 一 个 洞穴 之 中 ， 但 对 于 多 个 用 户 仍 不 能 完全 产生 
身 临 其 境 的 立体 效果 。 








立体 眼镜 ”计算 机 显示 器 
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15.6 虚拟 现实 感知 设备 
15.6.1 视觉 

如 前 所 述 ， 虚 拟 现实 系统 的 视觉 输出 一 般 包 括 立 体 显示 。 立 体 显示 可 以 通过 HMD 实 现 ， 
也 可 以 通过 立体 眼镜 观看 标准 的 计算 机 显示 器 实现 。 通 过 VE 中 测量 用 户 位 姿 的 传感器 将 该 输 
出 提供 给 用 户 ， 以 便 显示 合 适 的 视图 图 像 。 

输入 到 VR 系 统 的 视觉 设备 ， 如 果 有 的 话 ， 通 常 上 共有 跟踪 用 户 眼 部 、 头 部 或 身体 位 姿 的 功 
能 ， 并 把 位 姿 信息 输入 到 建 模 系 统 。 眼 部 跟踪 器 能 够 提供 凝视 的 方向 。 这 些 设备 可 装 到 HMD 
上 ， 或 者 与 操作 者 完全 分 开 。 基 于 HMD 的 头 部 位 姿 跟 踪 可 用 一 台 摄 像 机 实现 ， 即 利用 摄像 机 
跟踪 HMD 上 的 特征 点 。 最 近 的 VE 研究 结果 表明 ， 利 用 来 自 多 台 摄像 机 的 最 佳 视 图 能 够 跟踪 人 
手 、 人 头 、 人 脚 和 四 肢 。 视 觉 输入 设备 的 一 个 优点 是 ， 作 为 穿戴 设备 可 以 使 用 户 活动 不 受 约 
k. 但是， 尽管 用 户 活动 不 受 设备 的 约束 ， 但 设备 对 工作 空间 仍然 有 所 限制 。 有 的 人 眼 跟踪 
器 依赖 专门 的 红外 照明 ; 有 的 身体 跟踪 器 依赖 受 控 的 背景 颜色 。 
15.6.2 听觉 

计算 机 语音 输入 已 有 15 年 以 上 的 历史 ， 很 多 系统 如 电话 系统 和 家 庭 PC 应 用 中 都 要 用 到 。 
语音 输入 具有 天 生 不 需要 专门 学 习 的 优点 。 当 操作 者 双眼 和 双手 忙于 其 他 工作 而 没有 空闲 时 ， 
就 有 必要 使 用 语音 。 类 似 地 ， 语 音 输 出 也 是 一 种 方便 的 通信 方式 ， 它 不 需要 显示 器 。 

声音 输出 可 以 改善 接口 。 如 当 文件 夹 图 标 被 拖 到 垃圾 箱 时 , 金属 碰撞 声 证 实 文件 已 被 删除 。 
它 也 能 提高 VE 内 身 临 其 境 的 程度 ， 如 驾驶 虚拟 交通 工具 的 操作 者 能 听 到 发 动机 的 声音 和 禾 车 
时 轮子 发 出 的 声音 。 或 者 ， 远 程 操作 者 能 够 通过 所 放 音 乐 的 疯狂 程度 而 感到 辐射 能 量 的 大 小 。 


定义 114 ”语音 合成 通过 编码 产生 声音 数据 或 声音 控制 信息 ， 这 种 声音 不 是 自然 产生 

的 声音 。 
15.6.3 位 次 

3D 位 姿 传感器 用 来 测量 人 体 某 部 分 或 所 持 工具 的 位 置 和 姿态 。6 自 由 度 传感器 包括 HMD 
土 常用 的 Polyhemus 传 感 器 、 游 戏 棒 及 更 新 型 设备 如 Green 与 Halliday (1996) 描述 的 bat 设 备 。 
x-y-z 位 置 传感器 包括 sparking styllus 和 各 种 机 械 设备 。 也 有 装 在 人 身体 上 的 机 械 关节 ， 通 过 
确定 这 些 关 节 的 位 置 ， 由 计算 机 把 位 姿 信息 输出 给 穿戴 者 ， 不 过 这 种 设备 不 太 常 见 。 这 种 设 
备 具 有 力 反 馈 功 能 ， 下 面 进 行 介 绍 。 
15.6.4 触觉 

人 通过 触觉 、 力 觉 和 运动 觉 与 外 部 世界 相互 作用 。 触 觉 的 产生 ， 是 由 于 皮肤 的 神经 能 感 
知 温度 、 硬 度 和 表面 光滑 度 。 肢 体 和 肌肉 的 神经 能 感知 肢体 的 位 姿 和 肌肉 的 松紧 以 及 它们 的 
变化 。 前 庭 系统 的 神经 能 感知 身体 的 运动 。 


定义 115 ”人 的 触觉 包括 接触 的 感觉 (接触 觉 ) 和 身体 位 置 、 力 或 运动 的 感觉 (肌肉 
运动 觉 )。 各 种 机 电 设备 能 够 提供 力 的 输入 和 输出 。 


15.6.5 运动 觉 

人 对 运动 的 理解 是 多 种 感知 系统 共 间 起 作用 的 结果 。 正 如 在 电影 或 仿真 器 中 出 现 的 那样 ， 
视觉 显示 足以 引起 令 人 难受 的 劳动 病 。 在 各 种 VB 系统 中 ， 由 踏 车 、 机 械 机 构 、 振 动 台 或 离心 
机 给 人 体 带 来 的 运动 刺激 ,使 人 身 临 其 境 的 感觉 比 视觉 显示 所 引起 的 感觉 更 强烈 。 另 外 ， 前 
庭 系统 会 因 受 到 冷 空气 或 水 流 刺 激 而 产生 反应 。 在 运动 感知 方面 计算 机 视觉 具有 重要 的 作用 。 
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理想 情况 下 ， 操 作者 在 实际 环境 中 自由 运动 ， 由 跟踪 摄像 机 拍摄 一 系列 图 像 ， 再 对 这 些 图 像 
进行 分 析 ， 得 到 解释 运动 的 所 有 信息 ， 可 将 这 种 解释 映射 到 人 体 的 计算 机 模型 上 。 已 有 跟踪 
人 体 运 动 的 商业 系统 。 典 型 的 系统 依赖 人 体 上 专门 放置 的 标记 ， 这 样 做 是 为 了 简化 图 像 分 割 
和 特征 抽取 。 这 种 运动 测量 系统 ， 在 研究 各 种 运动 和 在 整形 外 科 设 备 中 得 到 了 应 用 。 有 的 研 
究 系统 不 需要 在 人 体 上 放置 标记 ， 直 接 对 人 头 、 双 手 和 双 脚 的 运动 进行 跟踪 。 


15.7 简单 3D 模 型 绘制 

.为 了 创建 虚拟 场景 ， 需 要 建立 目标 模型 以 及 由 模型 生成 图 像 的 软件 工具 。 目 标 模型 可 以 是 
复杂 的 网 格 模型 ， 就 像 第 13 章 和 第 14 章 中 介绍 
的 那样 ， 或 者 是 较 简单 的 线 框 模型 。 建 立 这 些 
模型 可 以 借助 计算 机 辅助 设计 软件 包 ， 如 
AUIOCAD。 图 15-13 显 示 的 是 汽车 线 框 模型 ， 
用 的 是 交互 式 CAD 软 件 工具 。 

一 且 建 立 了 3D 模 型 ， 就 可 以 显示 它 在 任意 
视点 ， 不 同 光 照 下 的 视图 。 

定义 116 绘制 即 从 模型 生成 图 像 的 过 程 。 

绘制 可 以 认为 分 成 两 步 : 

1. 对 于 选 定 的 视点 ， 确 定 模型 的 哪个 表面 
是 可 见 的 。 图 15-13 福特 概念 车 的 线 框 模型 (福特 汽车 公司 

2. 确定 创建 图 像 上 对 应 点 的 像素 值 提供 ) 

从 概念 上 来 说 ， 步 又 1 就 是 从 视点 沿 期 望 的 方向 到 目标 构造 一 条 光线 。 光 线 与 目标 的 首次 
交叉 点 就 是 沿 这 条 光线 可 见 表面 上 的 一 点 。 这 个 概念 称 为 光线 跟踪 (ray tracking), 许多 算法 
能 够 实现 这 一 点 。 目 前 的 计算 机 采用 z-buffer 硬 件 机 制 ， 能 够 快速 执行 步骤 1。 

步骤 2 有 简 有 繁 。 简 单 时 ， 目 标 具 有 特殊 的 颜色 ， 它 由 反射 属性 已 知 的 特殊 材料 制 成 。 光 
线 来 自 一 定 方向 的 点 光源 ， 也 存在 一 些 环境 光 。 数 学 模型 如 第 6 章 介 绍 的 Phong 明 上 暗 模 型 ， 可 
用 来 确定 目标 物 上 一 片 小 区 域 所 对 应 的 像素 颜色 。 图 15-14 是 汽车 线 框 模型 的 简单 绘制 图 。 如 
果 加 上 多 个 光源 、 面 光源 、 阴 影 、 透 明 表 面 和 交叉 反射 等 要 素 ， 可 以 创建 更 逼真 的 图 像 〈 以 
牺牲 速度 为 代价 )。 

图 15-15 是 两 幅 绘制 图 像 ， 用 到 几 个 不 同 的 交通 工具 模型 。 图 像 中 的 一 些 目标 采用 前 面 介 
绍 的 方法 进行 绘制 ， 另 一 些 带 纹理 的 表面 由 于 模式 复杂 ， 绘 制 起 来 将 很 费时 间 。( 参 见 左 图 中 








图 15-15 基 3 
图 15-14 汽车 的 绘制 图 像 (福特 汽车 公司 提供 ) ee ae 
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靠 左边 的 建筑 物 和 附近 的 人 行道 。) 对 这 些 表面 采用 的 是 纹理 映射 ， 而 不 是 绘制 。 纹 理 映 射 将 


在 下 一 节 讨 论 。 
15.8 实际 图 像 和 合成 图 像 融 合 


基于 模型 的 合成 绘制 也 就 做 到 这 个 程度 ， 可 以 看 出 结果 不 是 很 逼真 ， 而 且 为 了 改善 壳 真 
程度 所 需要 做 的 运算 又 很 费时 间 。 具 有 复杂 纹理 的 现存 图 像 ， 不 仅 能 够 提高 绘制 图 像 的 逼真 
程度 ， 而 且 能 够 加 快 绘制 的 速度 。 纹 理 ， 可 以 是 人 工 生成 的 模式 或 者 是 一 幅 实 际 图 像 〈《 可 以 
是 其 中 一 部 分 )。 在 绘制 表面 的 过 程 中 ， 不 是 用 单一 的 颜色 值 去 染色 ， 而 是 把 给 定 的 纹理 “ 粘 
贴 ”或 “ 涂 刷 ”在 表面 上 。 这 就 产生 了 纹理 映射 (texture mapping)， 其 中 可 见 像素 的 最 终 像 


素 值 从 所 给 纹理 图 像 的 像素 中 选取 。 


定义 117 纹理 映射 是 把 纹理 贴 到 一 个 光滑 表面 的 过 程 ， 这 样 就 建立 了 表面 的 纹理 图 像 。 
图 15-15 中 经 纹理 映射 的 表面 是 多 边 形 平面 ， 这 是 纹理 映射 的 最 简单 的 表面 。 纹 理 映射 也 


可 针对 更 复杂 的 曲面 ， 如 在 橘子 上 涂 刷 粗糙 
的 果皮 纹理 。 如 果 目 标 是 自由 形态 而 且 用 网 
格 模型 表示 ， 则 可 以 分 块 贴 加 纹理 。 但 对 于 
复杂 目标 ， 需 要 用 更 高 级 的 方法 。 计 算 机 图 
形 学 的 最 新 技术 是 用 目标 的 实际 图 像 提 供 所 
” 需 的 纹理 。 图 15-16a 是 重建 小 狗 的 粗略 网 格 模 
型 ( 见 第 13 章 )， 图 15-16b 是 该 模型 的 纹理 映 
射 图 像 。 在 这 个 例子 中 ， 纹 理 来 自 小 狗 的 实 
际 图 像 ， 所 拍 图 像 的 视点 与 模型 显示 的 视点 





b) 


图 15-16 小 狗 的 粗略 网 格 模型 和 纹理 图 像 (Kari Pulli 
提供 ) 


一 致 。 实 际 上 ， 我 们 希望 显示 任意 视点 的 纹理 映射 图 像 ， 就 像 图 像 绘 制 的 情况 一 样 。 


定义 118 
成 图 像 的 技术 。 


基于 图 像 的 绘制 不 需要 目标 的 几何 模型 ， 
进行 插值 后 生成 任意 视图 。 然 而 如 果 我 们 有 
目标 的 网 格 模型 和 少量 从 各 视点 得 到 的 实际 
图 像 ， 那 么 几何 模型 加 上 已 有 的 图 像 就 可 以 
产生 很 逼真 的 绘制 图 像 。 第 13 章 描述 的 重建 
系统 ， 根 据 一 组 深度 图 像 和 相关 的 颜色 图 像 
建立 目标 的 粗略 网 格 模型 ， 该 重建 系统 也 能 
根据 用 户 选 择 的 各 个 视点 绘制 出 目标 图 像 ， 
所 用 的 技术 称 为 基于 视图 的 纹理 化 (view- 
based texturing )。 图 15-17 显 示 这 种 方法 的 基 
本 原理 。 左 边 ， 用 户 用 鼠标 控制 目标 的 伪 彩 
色 重 现 图 ， 并 旋转 它 到 希望 的 视点 位 置 ; 中 
间 ， 是 最 靠近 该 视点 的 三 幅 图 像 ; 右边， 在 
期 望 方向 上 生成 的 小 狗 纹理 映射 图 像 。 为 生 
成 图 像 中 的 每 个 非 背 景 像素 ， 从 图 像 上 的 某 


基于 图 像 的 绘制 ， 是 指 在 一 组 实际 目标 图 像 的 基础 上 ， 产 生 任 意 视点 的 合 


只 需 存储 大 量 不 同 视点 的 图 像 ， 在 这 些 图 像 间 





图 15-17 


( Kari Pulli 提 供 ) 参见 彩 图 15-17 
( 左 ) 小 狗 模型 的 深度 图 像 

(中 间 ) 附近 视点 的 三 幅 真 彩色 视图 像 

E) 对 视图 像素 进行 加 权 得 到 的 绘制 图 像 。 
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个 像素 到 三 维 模型 发 出 一 条 光线 ， 然后 从 模型 分 别 到 中 间 三 幅 图 像 的 对 应 像素 发 出 一 条 光线 。 
对 这 三 个 像素 的 颜色 值 进行 融合 ， 就 
得 到 了 生成 图 像 上 所 选 像素 的 值 。 三 
个 像素 的 作用 不 是 平均 处 理 的 ， 融 合 
算法 要 考虑 存储 视图 与 要 绘制 视图 之 
间 的 相似 性 、 从 目标 模型 到 存储 视图 
像素 的 光线 方向 以 及 存储 视图 像素 与 
视图 边界 的 靠近 程度 。 也 可 用 z-buffer 


算法 软件 ， 去 掉 因 太 远 而 实际 上 不 能 A i 
落 在 表面 上 的 像素 。 图 15-18 由 少量 目标 视图 生成 的 配 准 深度 图 像 和 彩色 图 像 ， 


花费 很 长 时 间 。 基 于 视图 的 纹理 化 技 anes 
ANG EAS BE 56 0 LT BER i) LAER 
用 一 组 配 准 的 原始 深度 图 像 和 彩色 图 (右上 ) 同一 视点 对 应 的 彩色 图 像 
像 就 能 够 生成 绘制 图 。 图 15-18 利 用 小 (中 下 ) 根据 深度 数据 建立 的 网 格 模型 
狗 模 型 对 这 个 过 程 进行 说 明 。 所 用 的 ETF) 把 彩色 数据 纹理 映射 到 网 格 模型 得 到 的 绘制 图 。 
不 是 全 网 格 模型 ， 而 是 针对 每 幅 样本 视图 生成 部 分 网 格 模型 。 这 些 部 分 网 格 模型 与 目标 的 彩 
色 图 像 一 起 产生 绘制 图 像 ， 其 效果 和 使 用 全 网 格 模型 的 效果 一 样 逼 真 。 
再 者 ， 有 的 真实 目标 不 适合 建立 实 ` 


体 模型 。 当 一 个 目标 具有 较 薄 的 部 件 ， ee ae ak > 
如 船 由 或 植物 的 叶子 ， 需 要 网 格 模型 有 FY 


很 高 的 分 辨 率 表 现 出 拓扑 结构 。 因 为 有 2 f ae 4 
TR MR x, 





可 能 从 几 幅 视图 得 到 深度 数据 与 颜色 数 
据 ， 基 于 视图 的 纹理 化 技术 仍然 可 以 采 
用 ， 从 而 产生 在 任意 方向 上 都 很 逼真 的 “图 15-19 由 于 目标 的 部 件 太 薄 ， 用 同样 的 技术 建立 全 三 维 





目标 图 像 。 图 15-19 显 示 对 花篮 的 绘制 模型 几乎 是 不 可 能 的 (Kari Pulli 提 供 ) 参见 彩 图 
过 程 15-19 
(左上 ) 三 幅 不 同 的 目标 彩色 图 像 
习题 15.5 增强 立方 体 图 像 (左下 ) 把 三 幅 原始 图 像 的 像素 映射 到 新 的 视点 ， 产 生 不 同 视点 
用 第 13 章 的 方法 标定 摄像 机 ， 标 定 的 三 幅 新 图 像 


( 右 ) 最 后 的 绘制 图 像 ， 三 幅 新 图 像 的 加 权 结 果 
物 是 一 个 立方 体 或 小 盒子 (用 7 个 可 见 


角 点 作为 控制 点 )。 设 计 一 个 二 维 的 模 面 ， 模 面 上 的 3 个 点 表示 数字 3。 对 于 3D 立 方 体 的 上 部 ， 
参考 第 11 章 构造 映射 函数 g， 把 点 [x,,，y,,， zw] 从 3D 立 方 体 顶 部 映射 到 2D 点 [x,，y,]， 在 正方 形 
内 建立 模 面 的 模型 。 这 个 映射 应 该 是 线性 的 ， 并 把 立方 体 上 部 的 四 个 角 点 映射 到 模 面 的 四 个 
角 点 。 生 成 并 打印 图 像 ， 图 像 包含 实际 标定 场景 的 每 个 点 (除了 立方 体 上 部 ) 的 像素 ， 图 像 
中 应 该 包括 模 面 模型 的 像素 。 用 同样 的 映射 函数 g 重 复 上 面 的 过 程 ， 其 中 图 像 采 用 扫描 得 到 的 
任意 方形 图 像 ， 可 以 用 你 自己 的 脸 部 图 像 。 


习题 15.6 合成 立方 体 图 像 


用 习题 15.5 中 得 到 的 实际 摄像 机 投影 矩阵 ， 或 用 第 13 章 中 的 某 个 投影 矩阵 。(a) 合成 一 幅 
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立方 体 图 像 ， 立 方 体 位 于 摄像 机 的 视 场 内 。(b) 生成 与 (a) 一 样 的 图 像 ， 要 求 立方 体 的 一 个 
面 就 是 上 个 问题 中 的 模 面 。(*c) 用 两 张 不 同 的 脸 部 照片 对 立方 体 的 两 个 面 进行 纹理 映射 ， 用 
第 11 章 介绍 的 映射 方法 。 


15.9 人 机 交互 与 心理 问题 

显然 ， 采 用 本 章 介绍 的 设备 ， 在 很 多 方面 能 够 提高 人 机 接口 的 品质 和 带宽 。 在 虚拟 环境 
中 ,主要 目标 是 提高 身 临 其 境 的 程度 。 如 虚拟 外 科 手 术 需 要 通过 视觉 、 触 觉 和 力 觉 进行 高 品 
质 人 机 交互 。 人 体 之 间 的 差别 为 虚拟 现实 工程 系统 的 建立 带 来 了 困难 。 例 如 ， 由 于 头 部 尺寸 
和 形状 不 同 ， 使 得 HMD 的 设计 工作 变 得 复杂 ; 人 类 视觉 系统 的 差异 ， 使 基于 立体 融合 的 显示 
控制 发 生 困难 。 另 外 ， 不 同 的 人 对 客观 上 一 样 的 颜色 、 粗 糙 度 和 声音 等 的 敏感 情况 也 有 稍 许 
差异 。 

虚拟 现实 系统 会 产生 令 人 不 舒服 的 感觉 ， 如 量 动 症 通常 就 是 不 希望 出 现 的 。 其 他 可 能 还 
有 了 眼 疲劳 、 劳 累 和 受挫 。 如 果 立 体 融合 子 系统 与 操作 者 或 现实 匹配 的 不 好 ， 就 会 产生 这 些 效 
果 。 更 坏 的 情况 是 ， 仿 真 飞行 器 的 操作 者 突然 在 虚拟 环境 中 消失 ! 这 些 问 题 给 虚拟 现实 系统 
的 设计 人 员 带 来 很 多 挑战 。 
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第 16 章 案例 研究 


本 章 描述 两 个 不 同 的 商业 系统 ， 它 们 都 利用 计算 机 视觉 和 模式 识别 技术 ， 解 决 实际 应 用 
中 遇 到 的 问题 。 这 些 案例 集成 了 不 同 的 硬件 和 算法 ， 通 过 了 解 这 些 案例 ， 使 我 们 对 完整 的 系 
统 设计 有 所 了 解 。 其 中 用 到 的 大 多 数 方法 (不 是 全 部 )， 已 经 在 本 书 前 面 的 章节 中 讨论 过 。 第 
一 个 案例 是 IBM 公 司 开发 的 Veggie Vision 系 统 ， 用 于 超市 收 款 台 进行 商品 识别 。 另 一 个 是 虹膜 
识别 系统 ， 在 自动 柜员 机 (ATM) 或 安全 设备 中 进行 身份 验证 或 者 身份 识别 。 

16.1 Veggie Vision 系 统 

条 形 码 的 使 用 极 大 地 减少 了 超市 售货员 的 劳动 强度 ， 但 处 理 不 同 商品 的 劳动 强度 仍然 很 
大 。 有 的 商品 ， 如 马铃薯 或 苹果 可 预先 进行 包装 并 打上 条 形 码 ， 以 便 能 够 像 灌 装 和 箱 装 产品 
一 样 进行 处 理 。 然 而 许多 商品 是 散装 的 ， 主 要 是 为 了 方便 客户 单个 挑选 ， 例 如 西红柿 或 者 青 
豆 。 顾 客 可 以 把 散装 商品 放 在 塑料 绕 中 ， 也 可 以 不 放 。 在 一 般 商 店 中 ， 用 台秤 称 取 散 装 商 品 
的 重量 。 收 款 员 可 能 要 确认 商品 类 型 并 把 代码 输入 机 器 。 这 个 过 程 很 有 必要 进行 自动 处 理 。 
为 什么 不 在 台秤 上 面 安装 一 个 摄像 头 ， 借 助 它 来 自动 识别 商品 的 类 型 呢 ? 如 果 这 样 ， 就 能 大 大 
简化 收 款 员 的 工作 ， 而 且 能 够 改善 对 存货 的 管理 。 事 实 上 ， 在 IBM 的 T. J. Watson 研究 中 心 ， 
已 经 开发 出 一 个 称 为 Veggie Vision 的 系统 。 实 验 室 的 实验 证 实 了 系统 的 有 效 性 ， 现 在 正在 进 
行 实 地 试验 。 自 动 识别 系统 还 存在 其 他 方面 的 优点 ， 例 如 可 以 根据 商品 的 大 小 和 成 熟 度 进行 
更 详细 的 定价 。 后 面 我 们 会 更 详细 地 讨论 超市 商品 销售 问题 ， 以 及 IBM 的 解决 方法 。 特 别 感 
谢 Bolle、Connell 等 人 (1996)， 他 们 提供 了 Veggie Vision 系 统 的 相关 文档 。 读 者 可 以 参考 本 
章 列 出 的 参考 资料 ， 从 他 们 发 表 的 文章 中 得 到 更 多 的 信息 。 

16.1.1 应 用 场合 和 要 求 

美国 市 场 大 概 有 m=350 种 不 同 的 商品 , 但 是 一 个 商店 可 能 只 卖 150 种 左右 。 这 些 数字 都 说 
明 不 了 商品 识别 自动 化 是 一 个 困难 的 问题 。 为 了 节约 资金 ， 
自动 识别 系统 应 在 一 秒 内 做 出 识别 判断 ， 所 采用 的 计算 设 
备 成 本 应 不 超过 目前 超市 使 用 的 扫描 仪 和 计算 机 的 成 本 。 
希望 新 设备 所 占用 的 空间 与 当前 使 用 设备 的 空间 一 样 大 ， 
而 且 不 要 改变 商店 现 有 的 内 部 环境 。 

几 方面 因素 决定 了 这 种 系统 必须 适应 商店 环境 的 变化 。 
首先 ， 不 同 商店 的 商品 种 类 也 不 同 。 其 次 , 同一 家 商店 的 商 
品 会 随 季节 而 变化 ， 甚 至 是 每 天 都 在 变化 ， 例 如 香 燕 刚 到 时 
是 绿色 的 ， 以 后 会 逐渐 变 黄 。 有 效 的 系统 必须 能 够 适应 这 种 
变化 ， 而 且 能 够 进行 扩展 以 处 理 新 的 商品 。 

最 后 ， 整 个 系统 的 操作 ， 对 操作 员 来 说 必须 是 可 接受 
的 。 这 包括 最 初学 习 如 何 使 用 系统 ， 系 统 的 自动 化 操作 方 ” 图 16-1 超市 蔬菜 识别 系统 的 设计 草 
式 ， 以 及 当 自 动 化 程序 因 帮 出现 问题 时 要 由 操作 员 做 出 决 hep 
策 。 整 个 系统 ， 包 括 机 器 和 操作 员 ， 必 须 比 目 前 大 部 分 商 ee re 
店 中 的 手工 操作 更 加 有 效 。 图 16-1 显 示 所 预期 的 整体 系统 。 i i 
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通过 触摸 屏 向 收 款 员 显 示 结 果 ， 当 自动 化 系统 确定 不 了 时 允许 由 收 款 员 进 行 确认 。 


16.1.2 系统 设计 
1. 硬件 组 成 


扫描 硬件 所 占 的 空间 必须 与 现在 使 用 的 台秤 和 条 形 码 扫描 仪 所 占 的 空间 差不多 ,而 且 不 需 


特别 改造 就 能 在 各 种 商店 环境 下 运行 。 图 16- 
2 是 设计 出 来 的 扫描 仪 原理 图 。 在 光源 和 摄像 
头 上 都 用 到 了 偏振 滤 光 片 ， 为 了 滤 去 商品 的 
镜面 反射 摄像头 滤 光 片 的 方向 与 照明 滤 光 
片 的 方向 垂直 。 选 用 的 数字 信号 处 理 芯片 
(DSP)， 可 以 在 一 秒 内 完成 图 像 处 理 运算 。 彩 
色 摄像 关 和 DSP 是 收 款 机 的 低速 输入 设备 ， 系 
统 只 需要 一 套 识别 器 和 一 台 放置 商品 的 台秤。 

2. 目 标 表示 与 识别 

前 面 的 应 用 实例 表明 彩色 直方 图 是 行 之 
有 效 的 特征 ， 这 一 点 得 到 了 研究 和 开发 结果 
的 证 实 。 经 典 纹理 特征 在 该 问题 上 的 使 用 效 


放 在 玻璃 盘 上 的 商品 





图 16-2 滤 光 片 相 垂直 的 扫描 仪 设计 方案 。 图 中 显示 彩 
色 摄 像 头 和 现 有 台秤 及 条 形 读 出 器 中 用 的 偏振 


果 并 不 好 ， 因 此 出 现 了 一 些 面向 问题 的 特征 ， 如 下 所 述 。 也 用 到 了 简单 的 形状 特征 。 基 于 商品 
的 图 像 ， 结 合 颜 色 、 纹 理 、 形 状 和 大 小 直方 图 等 特征 ， 构 成 4>100 维 的 特征 向 量 O， 用 来 表示 放 
在 台秤 上 的 未 知 商品 。 图 16-3 显 示 某 些 苹果 (左边 ) 和 橘子 (右边) 的 彩色 直方 图 。 


为 了 使 系统 适应 变化 的 情况 ， 采 用 最 近 
邻 分 类 方法 。 商 品 的 特征 向 量 标记 样本 存储 
在 一 个 数组 中 。 最 多 m=350 个 类 别 ， 每 个 类 
别 有 10 个 样本 ， 这 样 就 存储 了 3500 个 样本 。 
采用 DSP， 可 以 很 容易 地 在 一 秒 之 内 对 查询 
特征 向 量 Q 和 全 部 3500 个 标记 样本 做 比较 ， 
这 样 就 能 找到 k 个 最 近邻 。 并 没有 用 特别 的 数 
据 结构 去 组 织 这 些 训练 样本 ， 这 样 做 便于 进 
行 更 新 。 存 储 样 本 向 量 时 同时 存储 关联 信息 ， 
这 样 可 以 记录 向 量 的 历史 ,而 且 当 样本 过 时 
时 可 以 从 内 存 中 删除 该 向 量 。 
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图 16-3 苹果 (左边 ) 和 橘子 (右边) 的 彩色 直方 图 。 
从 上 到 下 ， 分 别 是 色调 、 饱 和 度 和 强度 的 直 
HE (R.Bolle 和 J.Connell 提 供 ) 
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查询 特征 向 量 0 与 类 中 的 第 j 个 训练 样本 之 间 的 距离 :P,， 采 用 第 8 章 的 计算 方法 得 到 。 由 
于 每 个 特征 都 是 根据 直方 图 算出 的 ， 距离 4(Q，’P,) 就 是 0 与 :Pj 之 差 的 绝对 值 。 


di =d(Q,"P)) = Y` wy d(Q, "P; p) 


feF 


(16-1) 


通过 阐 值 来 控制 识别 过 程 ， 并 决定 结果 的 确定 性 。 用 距离 阔 值 /确定 2 是 否 与 样本 己 有 足够 
的 接近 程度 。 设 表示 从 内 存 选 出 的 与 近邻 的 样本 个 数 。 识 别 过 程 在 下 一 节 做 介绍 ， 


16.1.3 识别 过 程 


识别 台秤 上 商品 的 总 算法 ， 请 参考 算法 16.1。 在 第 16.1.4 节 中 ， 对 一 些 步 又 进行 了 更 加 详 
细 的 描述 。 利 用 训练 样本 中 的 最 近邻 进行 目标 识别 ， 原 理 图 参见 图 16-4。 
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) 确定 ) 不 人 确定 
图 16-4 在 特征 空间 内 进行 决策 的 原理 图 。 显 示 的 是 二 维特 征 空间 ， 而 实际 特征 空间 是 d 维 的 
) 当 Q 中 :内 的 所 有 训练 样本 来 自 同 一 类 时 的 “确定 ”识别 结果 
») 不 人 确定 时 的 策略 EZ. TH SEZ, SR RERNE DL UA RUBE PE a PE 
算法 16.1 Veggie Vision 识 别 商品 流程 
1. 操作 者 进行 控制 ， 拍摄 光源 关闭 和 光源 打开 时 的 图 像 ， 并 从 背景 中 抽取 出 前 景 
商品 。 
2. 绘制 颜色 特征 、 纹 理 特征 、 形 状 特征 和 大 小 特征 的 直方 图 ; 把 他 们 结合 到 一 起 构 
成 特征 向 量 @。 
3. 将 @ 与 内 存 中 的 每 个 训练 样本 做 比较 ; 舍弃 偏差 大 于 的 样本 ; 按 升 序 排列 剩余 
的 样本 。 
4. 如 果 求 得 的 K 个 最 近邻 都 具有 相同 的 标记 LL， 那么 标记 LL 将 作为 8 标示 的 等 价 量 被 返 
Bl, 而且 识别 结果 是 确定 的 。 在 这 情况 下 ， 系 统 能 自动 做 出 决定 。 
5. 如 果 第 一 次 的 判断 不 确定 ， 请 求 操作 者 再 放 一 次 商品 ， 然 后 重复 第 1~4 步 。 
6. 如 果 第 二 次 的 判断 仍 不 确定 ， 就 按 排列 顺序 显示 WN 个 可 选 标记 ， 由 操作 者 来 确定 。 
7. 如 果 适 当 的 话 ， 把 @ 加 入 到 训练 样本 集中 ， 可 能 要 删 掉 其 他 训练 样本 。 


16.1.4 详细 分 析 

1. 获 取 商 品 图 像 

在 商店 环境 下 ， 要 求 在 几乎 不 需要 控制 的 情况 下 获取 图 像 。 特 别 地 ， 人 台秤 内 的 摄像 头 将 
感 测 或 反射 来 自 上 面 的 光线 。 获 得 台秤 上 商品 的 两 幅 图 像 ， 拍 第 一 幅 图 像 时 台秤 内 的 光源 打 
开 ， 拍 第 二 幅 图 像 时 该 光源 关闭 。 要 分 割 的 三 个 区 域 是 : (1) 商品 区 域 ， 光 源 关 闭 时 对 应 瞳 
区 域 ， 光 源 打 开 时 对 应 亮 区 域 。(2) 在 两 幅 图 像 中 背景 区 域 具 有 类 似 的 亮度 。(3) 如 果 商 品 
装 在 塑料 袋 中 ， 光 源 关闭 时 对 应 区 域 不 太 暗 ， 光 源 打开 时 对 应 区 域 不 太 亮 。 对 于 该 项 工程 ， 
设 定 闪 值 使 商品 区 域 能 够 从 塑料 袋 和 背景 区 域 中 分 割 出 来 。 为 得 到 高 质量 的 颜色 信息 ， 利 用 
台秤 内 的 偏振 光 来 抑制 镜面 反射 ， 因 为 它 并 不 表示 商品 的 表面 。 另 外 ， 对 光照 条 件 进行 控制 ， 
使 要 成 像 的 商品 表面 不 受 台秤 外 面 光 照 的 影响 。 这 样 即使 房间 的 照明 发 生变 化 ， 感 测 到 的 颜 
色 将 是 一 致 的 。 

2. 计算 特征 

只 针对 商品 所 占 的 区 域 计算 特征 。 特 征 必须 具有 旋转 不 变性 ， 但 不 具有 尺度 不 变性 。 绘 
制 四 种 类 型 特征 的 直方 图 并 进行 整合 ， 得 到 一 个 向 量 C， 用 来 表示 未 知 的 商品 。 这 四 种 特征 是 
彩色 、 纹 理 、 形 状 和 尺寸 。 

把 每 个 像素 的 颜色 值 从 RGB 空间 转换 到 HSI 空 间 ， 坐 标 为 (h, s, i). Bail, sSMIMHAA. 
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不 考虑 亮度 或 饱和 度 比 较 低 的 像素 ， 因 为 它们 在 转换 时 会 引起 数值 不 稳定 。 用 商品 区 域 的 总 
面积 对 这 三 个 直方 图 进行 规范 化 处 理 。 图 16-3 显 示 出 革 果 和 桥 子 的 颜色 直方 图 。 

只 对 原始 彩色 图 像 每 个 像素 的 绿色 通道 计算 纹理 特征 。 利 用 大 小 不 等 的 center-surround 模 
板 进行 纹理 特征 计算 。center-surround 模 板 ， 其 中 心 的 盒 形 区 域 具 有 正 权 值 ， 周 围 的 背景 区 域 
有 具有 负 权 值 。 利 用 子 采 样 图 像 可 以 加 速 计算 。 把 对 模板 的 正 负 响 应 绘 成 直方 图 。 中 心 峰值 的 
大 小 给 出 了 目标 的 总 纹理 信息 。 如 果 中 心 峰 值 较 大 ， 说 明 对 模板 的 许多 响应 幅度 较 低 或 者 说 
纹理 非常 细小 。 直 方 图 的 伸展 范围 说 明 纹理 的 对 比 程度 ， 例 如 叶子 的 阴影 与 其 细微 表面 条 纹 
的 对 比 。 直 方 图 的 不 对 称 性 说 明 纹 理 成 分 大 小 相对 模板 尺度 而 言 的 一 些 信息 ， 例 如 直方 图 向 
正 向 偏 移 表 示 商 品 具 有 较 大 的 叶子 ， 比 起 那些 更 卷 缩 的 叶子 如 欧 芹 叶子 ， 该 种 商品 的 叶子 之 
(eal AS BRE I. 
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曲率 。 只 利用 区 域外 部 的 边 办 线段 ， 图 像 边 框 和 图 像 中 商品 之 间 相 接触 的 线段 不 用 。 为 了 更 
好 地 育 类 ， 画 出 曲率 平方 的 直方 图 。 球 形 商品 将 产生 与 半径 对 应 的 较 窜 的 峰值 。 实 际 位 置 能 
区 分 柚子 和 柠檬 之 间 的 区 别 。 狭 长 商品 ， 如 香花 和 胡 葛 下， 产生 的 数值 范围 较 宽 ， 在 零 值 附 
近 有 一 个 尖峰 。 叶 子 多 的 蔬菜 ， 曲 率 的 分 布 较 宽 。 

第 四 个 直方 图 特征 是 尺寸 。 对 每 个 前 景 像素 计算 尺寸 值 ， 而 不 仅仅 是 对 像素 进行 计数 。 在 
二 值 前 景 模板 的 四 个 方向 (水平 、 垂 直 和 两 对 角 线 ) 计算 游程 长 度 ， 建 立 四 幅 有 向 图 像 。 在 每 
幅 有 向 图 像 中 ， 像 素 的 有 向 尺寸 就 是 它 所 在 游程 的 总 长 度 。 前 景 像素 的 尺寸 取 自 该 像素 处 的 最 
小 有 向 值 。 目 标尺 寸 就 确定 了 ， 不 需要 参数 模型 和 其 他 任何 分 割 ， 只 要 把 前 景 和 背景 分 开 就 行 
了 。 一 串 葡萄 分 割 成 “膨胀 的 云 ” 前 景 模板 。 外 面 碰 伤 的 像素 具有 较 小 的 游程 长 度 ， 而 内 部 像 
素 具有 较 大 的 游程 长 度 。 于 是 尺寸 直方 图 将 由 两 个 峰值 ， 一 个 表示 单个 的 葡萄 ， 另 一 个 表示 葡 
萄 串 的 总 尺寸 。 在 尺寸 直方 图 上 胡 葛 卜 在 特征 宽度 处 将 有 一 个 窄 的 峰值 ， 这 正好 与 权 桃 西红柿 
的 宽度 类 似 ， 形 状 直方 图 上 零 曲 率 附近 的 峰值 表示 这 是 长 条 状 的 ， 而 西红柿 没有 。 

3. 监 督学 习 

最 近邻 分 类 方法 计算 时 间 不 长 ， 训 练 简单 ， 适 应 性 较 强 。 开 始 时 ， 可 用 部 分 库存 商品 对 
系统 进行 训练 ， 并 设计 类 标识 〈 存 货代 码 )。 系 统 投 入 使 用 后 ， 操 作者 可 以 提出 要 求 ， 把 一 个 
新 的 特征 向 量 @ 加 入 到 训练 样本 的 数据 集中 。 一 个 新 样本 与 该 类 样本 的 几何 结构 或 者 所 用 要 素 
做 比较 ， 如 果 证 明 它 是 元 余 的 ， 则 可 以 删除 该 样本 。 训 练 时 ， 基 于 已 有 样本 进行 正确 分 类 的 
新 样本 ， 如 果 它 在 最 佳 匹配 距离 之 内 ， 就 不 保存 ; 否则 ， 就 保存 。 这 样 允 许 在 特征 空间 内 构 
成 多 个 模式 。 例 如 ， 一 种 模式 只 用 于 识别 椰 菜 头 ， 而 另 一 种 模式 识别 带 长 茎 的 椰 菜 。 类 别 的 
样本 个 数 最 多 为 M， 如 果 超 过 M 就 去 掉 使 用 率 最 小 的 样本 。 如 果 一 个 样本 是 最 接近 的 ， 则 计数 
PWIBN+, AWB. , 

对 每 个 商店 都 从 头 训 练 Veggie Vision 系 统 是 没有 必要 的 。 实 验 表 明 ， 如 果 使 用 另 一 个 商店 
的 样品 进行 训练 ， 识 别 性 能 将 会 降低 。 然 而 ， 如 上 所 述 ， 系 统 具 有 自 适 应 性 。 一 开始 系统 的 
训练 是 基于 上 一 个 商店 的 商品 ， 这 时 人 员 干预 的 频率 较 高 ， 但 人 员 的 总 工作 量 比 从 头 开始 训 
练 的 方案 要 小 得 多 。 

16.1.5 性 能 分 析 

一 段 时 间 以 来 ， 研 究 人 员 已 经 公布 了 一 些 实验 结果 ， 在 后 面 的 参考 文献 中 可 以 看 到 具体 

内 容 。 最 近 的 一 项 研究 中 ， 采 用 了 5300 幅 图 像 ， 涉 及 4 个 不 同 的 商店 。 系 统 确认 并 正确 的 概率 
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是 89%; 识别 正确 或 者 将 正确 类 别 作为 首选 项 提供 给 操作 员 的 概率 是 93%; 识别 正确 或 者 提供 
前 4 个 正确 选项 的 概率 是 96%。 可 能 要 求 操作 员 重 放 一 次 商品 。 如 果 Veggie Vision 系 统 在 二 次 
尝试 中 都 是 不 确定 的 ， 就 由 收 款 员 触 摸 显 示 图 标 进 行 确认 。 可 以 看 出 ， 即 使 每 一 次 都 由 操作 
员 通 过 触摸 式 CRT 做 出 决断 ， 该 系统 也 会 极 大 地 减少 工作 人 员 的 劳动 量 。 


假设 香 燕 是 矩形 的 ， 他 们 的 形状 直方 图 看 起 来 将 是 怎样 的 ? 


BB 


画 出 红 苹果 和 黄 香 蕉 的 颜色 、 纹 理 和 形状 直方 图 ， 并 进行 比较 。 

如 果 顾 客 把 3 个 苹果 和 2 个 橘子 放 到 一 个 塑料 袋 中 。 识 别 系 统 还 能 够 应 付 吗 ? 如 果 能 ， 怎 
样 实现 ? l 
16.2 基于 虹膜 的 身份 识别 

现在 介绍 通过 扫 瞄 人 眼 的 虹膜 纹理 进行 身份 识别 的 系统 。ATM 环 境 下 的 传感器 硬件 是 由 
Sensar 制 造 的 ， 能 够 运行 IriScan 的 特征 抽取 与 匹配 软件 。 我 们 特别 感谢 Sensar 的 Gary Zhang 
(1998) 和 剑桥 大 学 的 John Daugman (1994,1998 ) ， 他 们 提供 了 该 系统 的 有 关 信息 和 图 表 。 

身份 识别 一 直 以 来 都 是 一 个 重要 的 社会 问题 。 对 于 商业 和 法 律 事务 ， 需 要 进行 正确 的 身 
份 识 别 。 例 如 ,. 一 个 人 从 银行 账户 中 取出 现金 或 变更 居住 地 址 。 进 行 身 份 确 认 时 ， 这 个 人 要 
向 有 控制 权 的 另 一 个 人 出 示 证 件 ， 例 如 身份 证 或 者 出 生 证 。 当 今世 界 的 许多 事务 是 通过 机 器 
或 计算 机 网 络 进行 的 ， 常 常 要 用 帐号 和 口令 ， 或 者 帐号 和 个 人 识别 号 (PIN) 来 保证 安全 性 和 
私密 性 。 不 管 是 否 人 允许， 其 他 人 能 够 得 到 这 些 代 码 ， 然 后 就 可 以 在 不 负责 任 或 者 不 受 控制 的 
情况 下 进行 交易 。 

身份 识别 除了 在 电子 商务 方面 有 着 非常 重要 的 应 用 ， 在 警 务工 作 方面 也 有 很 重要 的 应 用 
价值 。 指 纹 已 经 得 到 普遍 使 用 。 对 犯罪 现场 进行 指纹 检查 ， 也 许 能 识别 出 到 过 现场 的 有 关 人 
员 。 指 纹 也 用 于 协作 场合 下 的 身份 识别 ， 例 如 用 来 识别 安全 环境 中 的 工人 。 研 究 和 应 用 指纹 
的 历史 超过 一 百年 。 人 们 已 经 研发 出 一 些 电 子 装置 ， 使 合作 者 的 指纹 能 够 很 容易 地 输入 到 计 
算 机 网 路 或 其 他 系统 当中 (参见 Jain 等 人 ，(1999) 的 文章 )。 对 于 身份 识别 和 验证 系统 ， 人 脸 
识别 技术 也 在 蓬勃 发 展 之 中 。 这 些 系 统 具 有 不 依靠 知识 进行 身份 识别 的 能 力 ， 比 如 在 飞机 场 、 
银行 或 者 旅馆 场所 进行 识别 。 他 们 在 警 务 和 安全 场合 尤其 有 用 ， 但 也 在 可 接受 性 和 保护 隐私 
方面 存在 一 些 问题 。 
16.2.1 对 识别 系统 的 要 求 

考虑 系统 执行 下 面 的 两 种 操作 之 一 : (a) 从 一 大 堆 人 中 识别 出 一 个 人 ， 不 管 他 们 是 否 合 
作 ，(b) 确认 一 名 合作 者 ， 验 明 他 的 身份 。 后 一 种 情况 常常 称 作 验证 。 系 统 应 满足 的 要 求 有 
的 不 是 显而易见 的 ， 因 此 我 们 把 它们 列 出 来 。 系 统 设计 受 特殊 生物 特征 的 限制 ， 也 受 测量 方 
式 和 机 器 代码 方式 的 限制 。 三 个 重要 的 生物 特征 是 个 人 的 外 观 特征 : (1) 指纹 ，(2) AM, 
(3) 人 眼 虹 膜 。 下 面 将 会 讨论 ， 虹 膜 能 够 比 指纹 或 人 脸 提供 出 更 好 的 信息 。 

1. 系统 必须 是 在 对 个 人 影响 最 小 的 情况 下 获取 信息 的 。 

2. 一 段 时 间 前 后 ， 同 一 人 的 生物 特征 码 前 后 差异 必须 很 小 。 
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3. 个 人 的 生物 特征 必须 与 他 人 的 生物 特征 有 明显 区 别 (人 群 对 象 随 情况 而 变化 )。 

4. 系统 对 “虚假 数据 ”( 例如 打印 在 纸 上 的 图 像 ， 有 较 强 的 免疫 力 。 

5. 对 于 特殊 应 用 ， 系 统 的 性 价 比 要 高 。 

在 继续 讨论 虹膜 扫 瞄 系统 之 前 ， 需 要 对 不 同 的 生物 特征 在 上 述 几 个 方面 进行 比较 。 除 了 
以 上 提 到 的 生物 特征 ， 我 们 也 对 DNA 进 行 分 析 。 

1. 获得 信息 方便 与 否 。 指 纹 ( 一般 )， 人 脸 (好 )， 虹 膜 (好 )，DNA ( 差 )。 对 于 指纹 ， 
有 廉价 的 数字 扫描 仪 ， 但 需要 用 户 提供 指纹 ; 人 脸 可 以 用 廉价 的 视频 摄像 头 方便 地 摄取 图 
像 ; 要 获得 高 质量 的 虹膜 图 像 需要 更 贵 的 光学 设备 和 更 多 的 控制 操作 ;当然 DNA 的 获得 是 一 
个 昂贵 的 离线 实验 过 程 ， 通 常 在 重要 的 法 律 案件 中 才 使 用 。 

2. 小 类 内 差异 。 指 纹 (好 )， 人 脸 (一 般 )， 虹 膜 (很 好 )，DNA (很 好 )。 值 得 注意 的 是 ， 
提取 指纹 时 会 产生 很 大 的 形变 ， 人 脸 外 观 会 随 姿势 、 心 情 、 头 发 和 年 龄 而 变化 。 虹 膜 纹理 在 
孩子 出 生 之 前 就 已 经 形成 ， 而 且 一 生 当中 变化 很 小 ， 已 经 开发 出 的 扫 瞄 系统 能 够 对 虹膜 进行 
一 致 性 编码 。 

3. 大 类 间 差 异 。 指 纹 (好 )， 人 脸 (好 )， 虹 膜 (R), DNA (很 好 )。 虽 然 指纹 在 专家 
控制 下 能 够 很 好 的 进行 区 分 ， 但 自动 执行 的 效果 就 没有 那么 好 。 如 果 只 是 根据 人 脸 进行 识别 ， 
多 数 人 都 能 找到 与 自己 长 相 类 似 的 第 二 个 人 ， 尤 其 是 双胞胎 。 双 胞 胎 自己 还 有 1% 的 出 错 率 ! 
另外 ， 双 胞 胎 有 相同 的 DNA。 有 趣 的 是 ， 双 胞 胎 没有 相同 的 虹膜 纹理 。 事实 上， 来 自 同 一 个 
体 的 双眼 纹理 就 像 来 自 不 同 个 体 的 眼睛 i ii 
纹理 一 样 ， 是 不 相关 的 。 

4. 防止 假冒 方面 。 指 纹 (4), A 
脸 (AF), 虹膜 (很 好 )，DNA (很 好 )。 
使 用 指纹 或 者 人 脸 的 一 些 系统 ， 可 能 会 
被 照片 或 简单 外 表 模 型 所 欺骗 。 眼 睛 虹 
膜 内 的 有 瞳孔， 其 大 小 变化 可 通过 感 测 系 
统 进行 跟踪 ， 从 而 识破 假冒 者 的 诡计 。 

5. 性 价 比 。 指 纹 (一 般 ) AR 
(一 般 )， 虹膜 (一般)，DNA ( 差 )。 检 
测 指纹 和 人 脸 的 系统 比较 便宜 ， 但 对 特 
征 进行 匹配 的 算法 比较 复杂 。 虹 膜 扫描 pies 人 了 眼 的 窗 视 场 图 像 。 图像 处 理 识别 出 虹膜 的 8 条 夯 





系统 比较 昂贵 ， 而 匹配 算法 简单 。DNA 环 ， 据 此 抽取 出 虹膜 纹理 特征 (剑桥 大 学 John 
识别 ， 在 时 间 、 人 力 和 原材料 方面 都 是 Daugman 提 供 。 请 参考 www.cl.cam.ac.uk/- 
非常 昂贵 的 。 jgd 1000/) 


16.2.2 系统 设计 

下 面具 体 讨论 虹膜 扫描 技术 在 ATM 机 客户 识别 系统 中 的 应 用 情况 。 当 客户 靠近 ATM 机 ， 系 
统 就 扫描 客户 某 只 眼睛 的 虹膜 ，Sensar…Secure™ 系 统 根据 客户 记录 识别 该 用 户 的 身份 。 然 后 用 
户 获得 帐号 ， 作 为 附加 的 安全 防护 措施 ， 也 许 还 要 输入 密码 。 虹膜 扫描 技术 也 可 用 于 其 他 方面 ， 
例如 打开 安全 门 ， 这 时 只 需要 对 原 系统 的 设计 参数 进行 一 些 调整 ， 关于 参数 设置 如 下 所 述 。 

对 于 较 大 的 三 维 视 场 ， 虹 膜 是 一 个 相对 很 小 的 目标 ， 要 得 到 高 分 辩 率 的 虹膜 图 像 ， 需 要 
精密 扫描 仪器 和 特殊 光学 器 件 。 对 于 人 们 排 着 长 队 等 待机 器 扫描 的 情况 ， 为 了 确定 排 在 最 前 
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面 的 那个 人 ， 需 要 进行 3D 立 体 分 析 。 一 旦 对 该 人 的 眼睛 定位 扫描 完毕 ， 就 利用 专用 软件 得 到 d = 
2048 维 的 二 值 向 量 @， 该 向 量 表示 虹 膜 的 灰 度 纹理 。 把 该 向 量 与 表示 某 群 体 客户 的 一 组 向 量 进 
行 匹 配 ， 通 过 计算 最 小 海 明 距 离 决定 匹配 结果 。 海 明 距 离 就 是 两 个 二 值 向 量 中 有 差别 的 位 数 。 

1. 硬 件 组 成 

Sersar...Secure™ 分 布 式 处 理 结构 参见 图 16-6。 系 统 主 楼 由 4 个 单元 组 成 : (1) 通用 计算 机 ， 
提供 用 户 界面 以 及 测量 控制 和 视频 处 理 单元 的 接口 ，(2) 摄像 机 云 台 ， 上 面 安装 三 个 摄像 头 ， 
捕 提 宽 视 场 图像 和 近视 场 图 像 ， (3) 云 台 控制 单元 ，(4) 视频 处 理 单元 ， 有 专门 硬件 进行 立 
体 视频 的 实时 处 理 。 

根据 两 个 宽 视 场 摄 像 头 捕 捉 的 视频 流 ， 确 定 视 场 中 最 前 面 个 体 的 位 置 。 两 视频 流传 送 到 
盲 号 处 理 单元 ， 用 多 分 辨 金字 塔 进行 实际 





立体 视觉 处 理 。 某 只 眼 的 x-y-z 位 置 被 传送 宽 视 场子 系统 摄像 机 云 台 

到 主 单元 ， 然 后 利用 这 个 信息 去 控制 摄像 全 计划 法 

机 云 台 ， 从 而 得 到 人 有 眼 的 近视 场 图 像 。 这 帧 存储 、DSP、 

个 过 程 的 周期 为 半 秒 钟 ， 这 样 可 以 跟踪 以 LUT, ALU 

较 低 速度 移动 的 人 眼 。 主 单元 对 近视 场 视 

频 进行 处 理 ， 从 而 确定 人 眼 区 域 并 抽取 虹 

膜 代码 。 总 过 程 参 见 算法 16.2。 奔腾 CPU 及 数 照明 及 电机 控制 

该 系统 的 感 测 硬件 比 其 他 系统 中 用 到 字 化 便 件 | 

a 、 NFOV 处 理 pan/Tile 

的 硬件 要 复杂 得 多 ， 这 一 点 限制 了 该 系统 IriScan 代 而 API 焦距 调整 

的 实际 应 用 范围 。 造 价 高 的 原因 主要 是 被 

动感 知 引 起 的 ， 因 为 客户 更 愿意 接受 被 动 WFOV 表 示 宽 祝 场 

感知 。 客 户 在 工作 区 内 可 以 自由 移动 ， 因 NFOV 表 示 近 视 场 


此 系统 必须 能 够 确定 客户 的 位 置 。 这 种 情 IGE Sorsan Secure T AHAAA A 
a R 1D 7 E JPR o 月 


况 就 需要 进行 宽 视 场 感 测 ， 以 便 找到 要 跟踪 的 目标 ， 通 过 近视 场 感 测 得 到 所 需 的 上 腿 部 图 像 。 
实时 立体 视觉 需要 使 用 特殊 的 硬件 ， 采 用 两 级 分 辩 来 加 速 在 两 视频 流 中 寻找 对 应 点 的 运算 。 

算法 16.2 根据 虹膜 图 像 识别 最 前 面 的 人 员 身 份 ID 

1. 用 宽 视 场 视频 和 基于 相关 的 立体 视觉 算法 ， 确 定 最 前 面 的 人 头 位 置 。 

2. 用 模板 法 确定 人 脸 特 征 的 位 置 ， 然 后 确定 左 ( 右 眼 ) 位 置 [x, y, zl 

3. 根据 [x, y, z1， 利 用 近视 场 单 色 摄像 头 对 准 人 眼中 心 ， 捕 捉 人 眼 的 清晰 图 像 !。 

4. 采用 专门 的 图 像 处 理 软件 ， 从 人 腿 图 像 I 得 到 2048 位 虹膜 代码 C。 

5. 采用 异 或 (XOR) 运算 将 虹膜 代码 如 与 数据 库 中 的 代码 相 匹配 。 如 果 两 代码 的 差 

璋 小 于 太 位 ， 则 返回 该 人 的 ID; 否则 返回 “reject”。 


2. 表示 

人 有 眼 与 身份 的 最 终 表示 只 是 一 个 2048 维 的 二 值 向 量 。 图 16-7 用 图 示 的 方式 表示 一 个 向 量 ， 
其 中 黑色 表示 0， 白 色 表 示 1。 将 Gabor 滤 波 器 与 虹膜 图 像 进 行 邻 域 相关 计算 ,结果 的 正 负 号 确 
定 了 代码 的 每 一 位 。 在 相关 计算 之 前 ， 必 须 对 人 眼 图 像 进行 旋转 规范 化 处 理 。 

如 图 16-8 所 示 ， 通 过 二 维 Gabor 小 波 与 虹膜 上 (po 如 ) 处 虹膜 图 像 的 相关 运算 ， 确 定 虹 膜 
代码 的 每 一 位 ， 所 用 小 波 的 散 差 参数 为 w 和 有 ( 解 调 )。 小 波 沿 p 方 向 的 截面 是 散 差 参 数 为 a 的 
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每 次 相关 结果 都 产生 如 下 的 复数 c: 


c= f S A le "ee t ee podpao (16-2) 
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图 16-7 2048 位 代码 的 图 形 表示 。 将 不 同 大 小 的 Gabor 滤 波 器 用 于 图 16-5 中 的 八条 圆 环 内 ， 
所 得 结果 的 正 负 号 用 2048 位 代码 表示 (剑桥 大 学 John Daugman 提 供 ) 





图 16-8 (剑桥 大 学 John Daugman 提 供 ) 


(EE) 半径 p, < ps ps 的 虹膜 环形 区 域 图 ，Gabor 小 波 位 于 (Wo, po) ， 小 波 的 散 差 参 数 是 wc 和 8 
CRE) 复数 值 二 维 Gabor 小 波 的 形状 


根据 正 负 号 可 以 把 复数 值 相关 结果 转化 成 虹膜 代码 的 两 位 。 如 果 (Re(c) > 0.0) ， 那 么 pu= 
1; 否则 pw = 0。 如 果 (Um(c)>0.0) 那么 Dose = 1; AWM Ding = 0。 显 然 ， 虹膜 图 像 绕 视线 的 任何 
旋转 都 会 影响 位 置 参 数 加 的 位 置 。 由 于 要 根据 宽 视 场 图 像 中 的 双眼 位 置信 息 得 到 近视 场 图 像 ， 
旋转 幅度 将 不 会 很 大 。 在 匹配 期 间 ， 进 行 轻微 旋转 之 后 ， 再 匹配 虹膜 代码 ， 最 后 得 到 旋转 后 代 
码 与 数据 库 候选 代码 的 最 佳 匹配 结果 。p 轴 根据 瞳孔 边界 和 虹膜 外 边界 进行 确定 ， 假 设 这 两 个 
边界 是 圆 形 ， 但 不 一 定 是 同心 的 。 根 据 边 界 的 综合 信息 找到 这 两 个 圆 ， 与 圆 形 霍 夫 变换 的 运算 
方式 一 样 。 通 过 两 组 参数 p、x 和 y 确 定 边界 ， 这 两 组 参数 使 沿 圆周 的 梯度 幅度 最 大 。 


InaX(p,xoyo) 








9 
所 Da (16-3) 
3. 识别 过 程 
识别 过 程 参见 算法 16.2。 前 面 讨论 的 内 容 ， 涉 及 识别 过 程 的 每 一 个 重要 环节 。 下 一 小 节 讨 
论 系统 的 性 能 问题 。 
16.2.3 系统 性 能 
关于 虹膜 图 像 捕 提 与 识别 所 用 的 时 间 ， 与 使 用 情况 有 关 ， 通 常 在 1 到 5 秒 之 间 。 对 于 ATM 
系统 ， 这 个 时 间 是 合适 的 ， 但 在 机 场 安检 系统 中 要 识别 走动 的 人 员 ， 这 个 时 间 就 显得 太 慢 了 。 
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在 ATM 应 用 中 ， 主 要 是 控制 摄像 头 机 械 运 动 比较 费时 间 ， 大 约 有 90% 的 时 间 花 费 在 图 像 捕捉 
上 。 关 于 图 像 运算 ， 大 概 需 要 200masec 来 确定 虹膜 边界 的 位 置 和 生成 虹膜 代码 。 匹 配 速度 大 约 
是 每 秒 10 万 人 。 

最 重要 的 指标 是 系统 在 识别 中 出 错 的 概率 。 根 据 多 次 实验 结果 建立 的 理论 模型 ， 
Daugman (1998) 做 出 如 下 关于 误差 率 的 估计 结果 。 如 果 要 验 明 某 个 人 的 身份 ，2048 位 代码 
的 70% 就 必须 得 到 匹配 ， 这 时 的 误 识 率 大 约 是 1/ (6 x 10?) ， 而 拒 真 率 是 1/46 000。 如 果 益 值 
降低 到 66% ， 那 么 误 识 率 和 拒 真 率 相 同 ， 大 约 是 一 百 万 分 之 一 。 

我 们 对 上 面 估计 概率 所 用 的 模型 做 个 简单 的 总 结 。 读 者 如 果 想 了 解 详 细 内 容 ， 请 参考 
Daugman (1998) 的 论文 。 对 300 个 体 的 虹膜 图 像 进行 两 两 比较 ， 产 生 如 图 16-9 所 示 的 结果 。 
结果 发 现 (a) 不 同 个 体 的 虹膜 ， 其 海 明 距 离 (超过 20 万 对 ) 的 分 布 范围 在 0.4~0.6 位 之 间 ; 
(b) 观测 到 的 分 布 结果 ， 与 N = 2664 HE. p = 0.5 = 4 的 二 项 分 布 情况 吻合 得 非常 好 ; (ce) 
令 人 惊奇 的 是 ， 同 一 个 体 的 两 眼 虹膜 分 布 ， 与 不 同 个 体 间 的 分 布 结果 类 似 ， 这 表明 同一 个 体 
的 双眼 虹膜 是 不 相关 的 ， 就 像 两 个 不 同 个 体 的 虹膜 一 样 。 图 16-9 绘 出 不 同 个 体 代 码 间 的 海 明 
距离 分 布 (右边 )， 以 及 同一 个 体 代 码 间 的 海 明 距离 分 布 (左边 ) ， 交 叉 点 处 的 概率 是 10-5。 
决策 国 值 不 一 定 要 设 在 交叉 点 处 。 如 果 最 大 能 容忍 30% 代 码 位 的 距离 ， 那 么 误 识 率 为 60 亿 分 
之 一 ， 如 果 错 误 接受 的 代价 比 错误 拒绝 的 代价 大 得 多 ， 那 么 这 个 误 识 率 是 满足 要 求 的 。 
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虹膜 识别 的 决策 环境 g 

8 . 

S 对 不 同 个 体 的 虹膜 对 比较 222 743 次 

g 对 同一 个 体 的 虹膜 对 比较 340 次 

R g 
ka e i 
= 均值 =0.089 均值 =0.456 

2 标准 差 =0.042 标准 差 =0.018 

导 

© d'= 11.36 

= 理论 曲线 : 二 项 分 布 族 

a 理论 交叉 点 : HD=0.342 

e 理论 交叉 率 : 一 百 二 十 万 分 之 一 

© © 
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图 16-9 同一 个 体 的 虹膜 海 明 距离 分 布 (左边 )， 不 同 个 体 的 虹膜 海 明 距 离 分 布 (右边 )。 
交叉 点 位 于 代码 位 的 0.34 处 ， 其 中 拒 真 率 等 于 误 识 率 ， 两 个 大 约 都 是 10“ ( 剑 
桥 大 学 John Daugman 提 供 ) 
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305,306,308 
perceptron learning (感知 器 学 习 )，122~123 
photometric stereo with three light sources ( 利 几 三 光 
源 的 光度 立体 )，473 
RAG (region adjacency graphs) (区 域 邻接 图 )，82 
recognition-by-appearance using basis of principal 
components (基于 主 成 分 基 的 表象 识别 ) , 520 
recursive labeling (递归 标记 )，57~59 
relational distance matching (相关 距离 匹配 ) 504 
rigid transformation for aligning model triangle with 
congruent world triangle with (将 模型 三 角形 与 相合 
实际 起 角形 对 齐 的 刚体 变换 )，421 
row-by-row labeling (未 行 标记 )，59 
Shi's clustering procedure (Shi 的 聚 类 过 程 )，289 
single update stage for active contour (活动 轮廓 的 一 
个 更 新 步 又 )，491 
space-carving (空间 切割 )，464~467 
tracking edges of binary edge image (二 值 边 缘 图 像 的 
边缘 跟踪 ) 303 
transformation from model features to image features 
using pose clustering〈 通 过 位 姿 聚 类 寻找 从 模型 特征 
到 图 像 特征 的 变换 }，344 
union-find (并 查 )，59 
using color and motion to track ASL gestures (利用 颜 
色 和 运动 跟踪 ASL 手 势 ) 322~324 
watch-gear inspection (手表 齿轮 检查 )}，68~71 
alignment(s): accidental，( 对齐 : 偶然 )，394 
matching geometric models via (几何 模型 匹配 )， 
496~504 
smooth object (光滑 有 目标)，501~504 
3D-3D (三 维 到 三 维 )，496~498 
via transformation calculus (利用 变换 演算 ) ,419~421 
2D-3D (二 维 到 三 维 )，498~501 参 见 matching 
ambient light (环境 光 )，207~208 
definition (定义 )，208 
analog images,definition (模拟 图 像 ， 定 义 )，29 
angular field of view ( 角 视 场 )，31 
ANNs(artificial neural networks) (人 工 神经 网 络 )， 
120~126 
Mach band effect produced by (产生 的 马赫 带 效 应 )， 
153~155 
appearance,3D object recognition by，( 外 观 ， 识 别 3D 物 
th), 516~523 
application problems (应 用 问题 )，3~10 
applications,of binary morphology( 应 用 ,二 值 形态 学 的 )， 
68~71 
AR(augmented reality) (增强 现实 )，530~532 
architectural walkthrough (建筑 漫游 })，529 


arcs,detecting with Hough transform (gh, 起 大 变换 检测 )， 
303~312 
area (面积 )，73 
arrays:CCD (阵列 : CCD) 24~25, 26 
PARENT ( 父 节 点 向 量 ) ,59~61 
pixel (像素 )，43-45 
arrow junctions ( 箭头 连接 )，377 
artificial neural networks(ANNs) (人 工 神经 网 络 ) ， 
120~126 
Mach band effect produced by ( 产 牛 的 马赫 带 效 应 )， 
153~155 
artificial neurons (AN) (人 工 神经 元 )，120~122 
aspect graphs (表象 图 )、488~489 
aspect (表象 )，488 
assignment,definition (分 配 ， 定 义 )，351 
auditory output, virtual reality (VR) systems ( 听觉 输出 ， 
虚拟 现实 系统 )，539 
augmented reality (AR) (增强 现实 )，530~532 
definition (定义 )，535, 参见 virtual reality (VR) 
systems 
autocorrelation, measuring texture by power spectrum and 
( 自 相 关 ， 用 功率 谱 测 量 纹理 ) ,221~223 
automatic thresholding (自动 阔 值 化 )，85-89 
axis (axes) :best ($h: 基 佳 轴 )，79~81 
ellipse,lengths and orientations ( 椭圆， 长 度 和 方向 ) 
78~79 
with least second moment (具有 最 小 二 阶 智 )，81 


B 


Bt+-tree indexes (B+- 树 索 31)，245~247 
background pixels (背景 像素 )，51 
backprojection ( 反 投 影 )，200 
back-propagation algorithm ( 后 向 传播 算法 )，126 
backtracking, labeling block edges via ( 回潮 法 ， 标 记 模 
块 边 缘 )，381 
balloon models,3D (气球 模型 ，3D )，493~494 
bandpass filtering ( 带 遂 滤波 )，181 
basis,orthogonal,using ( 基 ， 正 交 ， 利 用 )，160~162 
basis images:computing ( 基 图 像 : 计算 }，519~521 

for set of training images (训练 图 像 集 )，518~519 
bay_above_bay ( 湾 在 湾 之 上 )，112 
bay_above_lake ( 湾 在 湖 之 上 )，112 
bay_num (5%), 112 
Bayesian classifier,definition ( 贝 叶 斯 分 类 器 ， 定 义 )， 
115 
Bayesian decision-making ( 贝 叶 斯 决策 )，114~115 
bays (#5), 104,112 
best affine calibration matrix (最 佳 仿 射 标定 矩阵 )， 
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431~437 
best axis (最 佳 轴 )}，79~81 
binary decision trees,definition (二 又 决策 树 ， 定 义 )， 
108 
binary image (s) (二 值 图 像 )，24 
analyzing (分 析 )，51~91 
closing (闭合 )，65, 67 
definition (定义 )，30 
dilation (R#BRK), 65, 66~67 
erosion (Beth), 65, 66~67 
labeling connected components (标记 连通 成 分 )， 
56~63 
morphology (形态 学 )，63~73 
opening (开启 )，65, 67 
run-coded (游程 编码 ) , 37 
translation { 平移 )，66 
binary morphology (二 值 形态 学 ) 63~73 
applications (应 用 )，68~71 
basic operations (基本 运算 )，65~68 
conditional dilation (条 件 膨胀 )，71~73 
in medical imaging (医学 成 像 )，69 
structuring elements (结构 元 )，63~65, 68~71 
binary partition (二 值 分 解 )，217 
local ( 局 部 )，217 
bins/binning ( 箱 格 /分 箱 )}，85,308,346 
binsize ( 箱 格 大 小 ) , 85 
blade (为 边 )，372 
definition (#232), 374 
blobs (J), 13;504~506 
block (s) :labeling edges of via backtracking (模块 : [Al 
渊 法 标记 边缘 )，381 
labeling edges of via discrete relaxation (离散 松弛 法 
标记 边缘 ) 382 
labeling of line drawings of (线条 图 标记 )，377~383 
blooming (364), 28 
blur, relating resolution to (#2), 47 8¥38 457), 406 
Boolean features (布尔 特征 )，112 
border algorithm (边界 查找 算法 )，295~297 
boresighted multispectral sensors ( 视 轴 多 谱 传 感 器 )，46 
boundary (ies) :coding (边界 : 编码 )，292~293 
cues from (线索 }，393~394 
extraction (抽取 )，295 
illumination (光照 )，374 
interpreting shape from (恢复 形状 )，391~392 
matching (匹配 ) 237~238 
in space-time (时 空 ) 321 
bounding box (边界 框 ) 76 
box filter,definition (REWER, HX), 136 


box smoothing masks ( 盒 形 平 请 模板 )，144 
Burns line finder (Burns 直 线 检测 器 )，311~312 


C 


calibration: best affine calibration matrix (标定 : 最 佳 标 
EHRE), 431~437 
of cameras (摄像 机 ) 431~437 
of cameras improved method of (改进 的 摄像 机 方法 )， 
444~453 
of cameras example (摄像 机 举例 ) 449~453 
of projectors (投影 仪 ) 437 
camera coordinate frame C (摄像 机 坐标 系 C)，44 
camera effects:definitions (摄影 特效 : 定义 )，272~273 
ignoring (228%), 274~276 
camera model (摄像 机 模型 ) 422~430 
parameters (参数 )，436~437 
camera pan, definition (摄像 机 扫 视 ， 定 义 )，272 
camera zoom, definition (摄像 机 变焦 ， 定 义 )，272 
camera (s) :calibration (摄像 机 : 标定 )，431~437 
calibration example (标定 举例 }，449~453 
calibration, improved (标定 ， 改 进 )，444~453 
CCD (charge-coupled device) (电荷 而 合 器 件 )， 
22~24 
computing 3D points using multiple (利用 多 个 摄像 机 
计算 3D 点 )，428~430 
data acquisition using (获取 数据 )，461~463 
extrinsic parameters ( 外 部 参数 )，445~449 
human eye as (人 有 眼 )，26~27 
image formation in (图 像 形成 )，24~26 
intrinsic parameters (内 部 参数 )，445 
posing for stereo configuration (构成 体 视 系统 的 ~ 位 
#), 411~413 
video (视频 )，26 
Canny edge detector (Canny 边 缘 检 测算 子 )，157~158 
and linker (连接 算 子 )，297~301 
case studies: identifying humans via iris of eye (案例 研 
究 : 基于 虹膜 的 身份 识别 )，554~561 
Veggie Vision, 548~554 
category hierarchy,GRUFF ( % 5i Jk. 
315~516 
Cauchy-Schwartz Inequality ( h[y¥-}e MRD EK), 
161,162 
CCDs (charge-coupled devices) :arrays ( LARS BE: 
阵列 ) 24~25, 26 
cameras ( 摄像 机 ) ，22~24, 24~26 
variations (差异 )，28 
centroid (中 心 )，73 


chain code, Freeman ( 链 码 ，Freeman ) ， 


GRUFF), 


293 
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changes, detecting in video (XE, AAHH ), 
272~277 
character recognition (字符 识别 )，98~100 
charge-coupled devices (CCDs) : arrays (h ERBA BF: 
阵列 ) 24~25, 26 
cameras ( 摄像 机 ) ，22~24, 24~26 
variations (差异 ) 28 
centroid (中 心 )，73 
child nodes ( 子 节 点 )，107 
chromatic distortion (彩色 畸变 )，29 
chrominance ( 色 度 )，197 
circle of confusion (模糊 圈 ) , 24 
circles,finding with Hough transform (W, FE KORE 
mM), 309~310 
circularity (FE), 74 
class mean,nearest,used in classification (类 均值 ， 最 近 
的 ， 用 在 分 类 中 )，101~103 
classes,definition (类 别 ， 定 义 )，94 
classical connected components algorithm，using union- 
find【〈 经 典 连 通 成 分 算法 ， 利 用 并 查 ) 61~62,65 
classification:algorithm (分 类 : 算法 )，101, 103~104 
color used for ( 基于 颜色 )，198~199 
common model for (一 般 模型 ) 94~97 
definition (定义 )，94 
fuzzy (模糊 )，124 
nearest class mean used in (最 近 类 别 均 值 )，101~103 
nearest neighbors used in (最 近邻 )，103~104. 
参见 decision trees 
classification system(s):building (分 类 系统 :建立 )，95~96 
evaluating error rate of (错误 率 评估 )，96 
false alarms and false dismissals ( 误 报 和 漏 报 )， 
96~97 
classifier (s) (分 类 器 )，95 
definition (定义 )，94 
implementing (实现 )，101~104 
clearance primitive ( 空 及 性 基 元 )，514 
clipping ( 削 波 ) ,28 
closed form solutions for parameters (参数 的 封闭 解 )， 
314~315 
closing of binary images (二 值 图 像 的 闭 运算 )，65 
definition (定义 )，67 
clustering (RÆ) 119 
classical,algorithms (经 典 的， 算法) 282~282 
isodata, 282~284 
iterative K-means (迭代 K- 均 值 ) 282 
methods {方法 )，281 
methods based on histograms ( 直方 图 方法 )， 
284~286 


Ohlander’s recursive histogram-based technique 
{Ohlander 递归 直方 图 技术 )，28S-~286, 287 
pose (位 姿 )，344~346 
Shi’s graph-partitioning technique ( Shi 的 图 分 割 技术 )， 
286~289 
CMY (cyan-magenta-yellow) subtractive color system 
(CMY ( 青 - 品 红 - 黄 ) 减 色 系统 )，193~194 
code, Freeman chain 〔〈 码 ，Freeman 链 码 ) 293 
coding, boundary (编码 ， 边 界 )，292~293 
collision (冲突 )，245 
color (颜色 )，187~211 
applications (应 用 )，209 
CMY (cyan-magenta-yellow) subtractive color system 
(CMY (青色 -总 红 -黄色 ) 减 色 系统 )，193~194 
cube (立方 体 )，194 
hexacone (六 棱锥 )，194, 195 
histograms ( 直方 图 )，199~201, 231, 233 
HSI (hue-saturation-intensity) HSI (色调 -饱和 度 - 亮 
度 ) 194~197 
human perception ( 人 类 感知 ) 209~210 
images ( 图像) ，45~46 
layout (分 布 )，232~233 
physics of ( 物理 学 )，188~191 
pseudo (HRE), 210 
RGB (red-green-blue) basis for (RGB ( 红 - 绿 - 监 ) #£), 
191~193 
segmentation ( 分割)，201~202, 322~324 
similarity measures (相似 性 度量 )，231~244 
triangle ( = 角形 )，193,195 
used in Veggie Vision (用 于 Veggi Vision 系 统 )，552 
using for classification (分 类 )，198~199 
compression:data ( 上庄 缩 : 数据 )，36 
with JPEG (Joint Photographic Experts Group) 
format (JPEG (联合 摄影 专家 组 ) 格式 )，38-~39 
lossless (无 损 )，36 
lossy (有 损 ) 36 
MPEG,for video (MPEG， 视 频 )，261~262 
With Motion JPEG (Joint Photographic Experts Group ) 
format (运动 JPEG 格 式 )，40 
computer vision,definition (计算 机 视觉 ， 定 义 )，1 
conditional dilation:in binary morphology {条 件 膨胀 :在 
二 值 形态 学 中 )，71-73 
definition，( 定义)，72 
conditioning images (处 理 图 像 )，128-186 
confusion matrix (WEA ERE). 106~107 
definition (定义 )，106 
connected components:algorithm,classical,using union- 


find (连通 成 分 : 算法 , 经 典 的 , 利用 并 查 )，61-~62,65 
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labeling (标记 )，56~63 
labeling,using run-lenth encoding for (标记 ， 利 用 游 
程 编 码 )，62~63 
consistent labeling (一 - 致 性 标记 )，351~353 
definition (#32), 351 
constrained linear optimization (约束 线性 优化 ) ， 
456~457 
constraints: epipolar (2938: Shk), 402~403 
hard (fii), 490 
integrating spatial (综合 空间 )，472 
ordering (顺序 )，403 
relational,symbolic matching and (关系 ， 图 符 匹配 )， 
401 
3D object recognition (3D 目 标识 别 )})，495~496 
content-based image retrieval (基于 内 容 的 图 像 检 索 )， 
226~250 
indexing for with multiple distance measures (基于 内 
容 的 多 距离 测度 图 像 索 5|)，248 
continuous relaxation labeling (连续 松弛 标记 )， 
356~359 
contours:active contour models (轮廓 : Tape Rp! ), 
489~492 
detecting with Hough transform for lines and arcs ( HÆ 
REPRE MA AM), 303~312 
identifying regions by (区 域 识 别 )，295~312 
identifying with Canny edge detector and linker {用 
Canny 边 缘 检 测算 子 和 连接 算 子 识别 )，297~301 
internal contour energy (内 部 轮廓 能 量 ) 491 
intrinsic images (本 征 图 像 )，371~377 
of moving objects (运动 目标 )，321 
contrast,detecting ( 对比度， 检测 )，141~143 
contrast stretching,definition ( 对比度 扩展 ， 定 义 )，132 
contributing points (贡献 点 )，498 
control points (控制 点 )，332~334 
definition (定义 )，333 
converting: RGB (red-green-blue) encoding to HSI 
(hue-saturation-intensity) encoding，( 变换 : RGB ( 红 - 
绿 - 蓝 ) 编码 到 HSI (色调 -饱和 度 -亮度 ) 编码 )，196 
RGB (red-green-blue) to YUV (RGB ( 红 - 绿 - 蓝 ) 到 
YUV ), 197 
convolution ( 卷 积 )，128 
cross correlation and ( 父 叉 相关 )，167~172 
definition (定义 )，169 
operation (运算 )，169~172 
theorem (定理 )，182~183 
co-occurrence matrices ( 444E), 217~220 
coordinate frames (坐标 系 }，328~329, 413~415, 43~45 
coordinate systems (44ARA), 30~31,413~415 


411 


raster-oriented (StH), 30 
coordinates, homogeneous (坐标 ， 齐 次 ) ，329 
corner (s) (AA), 377 
detecting (检测 )，320~321 
patterns ( 模式 ) ，4~6 
correlation (相关 )，128 
correspondence (s) :cross-correlation ( 对应: 交叉 相关 )， 
400~401 
epipolar constraint ( 外 极 线 约 束 )，402-403 
error versus coverage (误差 与 场景 覆盖 ) 403 
establishing (建立 )，400~403 
ordering constraint (顺序 约束 )，403 
pose from 2D-3D point (2D-3D 点 对 应 求 位 姿 )， 
455~456 
symbolic matching and relational constraints {图 符 匹 
配 和 相关 约束 )，401 
in 3D-3D alignment (3D-3D 比 对 )，496~498 
counting: holes (计数 : JL), 4~6 
objects in an image (图 像 中 的 月 标 )，S4~S6 
coverage, error versus (场景 覆盖 ， 误 差 与 )，403 
crease (s) (#738), 373,377 
definition (Æ X}, 374 
cross correlation (交叉 相关 )，400~401 
convolution and (#481), 167~172 
definition (#32), 169 
normalized (规范 化 )，170 
crossbar inspection (检查 交叉 支撑 杆 )，4~6 
cubes: in octrees (立方体 : 在 八 又 树 中 )，484~485 
used in space-carving algorithm (用 在 空间 切割 算法 
中 )，466~467 
cues: boundaries and virtual lines (线索 : 边界 和 虚拟 直 
线 )，393~394 
depth from focus (根据 焦距 变化 求 深度 ) 393 
motion phenomena (运动 现象 )，393 
from non-accidental alignments ( 非 偶 然 对 齐 )，394 
shape from boundary (从 边界 恢复 形状 ) ，391~392 
shape from shading ( 从 明暗 恢复 形状 )，388 
shape from texture (从 纹理 恢复 形状 )，388~391 
3D in 2D images (2D 图像 中 的 3D)，383~388 
vanishing points ( 销 隐 点 )，392 
curves: aggregating consistent neighboring edges into ( 曲 
2%, 相 邻 连贯 的 边缘 生成 ) .301~303 
detecting with Hough transform (用 霍 夫 变换 检测 ) ， 
303~312 
segmenting via fitting (基于 拟 合 的 曲线 分 段 )，317 
cyan-magentag-yellow (CMY) subtractive color system 
( 青 - 品 红 - 黄 (CMY) 减 色 系统 )，193~194 
cylinders: generalized-cylinder models ( 圆柱 体 : 广义 圆 








472 


柱 模型 )，483~484 
cylindrical warp,of image region (圆柱 变形 ， 图 像 区 域 )， 
364~366 


D 


darkening with distance ( 随 距离 增 大 而 变 暗 )，206~207 
data: acquisition in 3D object reconstruction (数据 : 在 
3D 目 标 重 建 中 获得 )，461~463 
compression (压缩 )，36 
gloves ( FE), 534 
multidimensional, decisions using ( 多维， 决策 ) ， 
117~119 
range (深度 ) 463~464,465 
databases:image (数据 库 : 图 像 )，226~230 
image,queries ( 图像 ， 查 询 )，228~230 
organizing (组 织 )，244~248 
QBIC (Query by Image Content) (图 像 内 容 查询 )， 
226~227 
Decathlete game (Decathlete 游 戏 )，255~256 
decision tree (s) (决策 树 )，98, 107~114, 522 
automatic construction of (自动 构造 )，109 
binary, definition (二 又， 定义 )，108 
nodes (节点 )，107 
decision-making:Bayesian (决策 : 贝 叶 斯 )，114~115 
multidimensional data used for ( 多维 数据 )，117~118 
defect_cue (MAJE HIHA FP ARG) ,69,71 
definition tree (s) ,GRUFF (Æ Xf, GRUFF), 515 
deformable models, physics-based and ( a) BiG, ty 
理学 模型 ) 489~495 
density,and direction of edges in analyzing texture (在 纹 
理 分 析 中 的 边缘 密度 和 方向 )，215~217 
depth: cues (IE: 线索 ) 42 
human perception of ( 人 类 感知 )，394 
interpreting via focus (根据 焦距 变化 求 )，393 
3D cues in 2D images ( 2D 图 像 中 的 3DD 线 索 ) ， 
383~388 
depth of field (景深 )，393 
definition (定义 )，405 
focus and {焦距 )，404~406 
depth perception,stereo (深度 感知 ， 立 体 )，397~403 
derivative masks (微分 模板 )，141~144 
properties of (特性 )，143~144 
detection: human edge (检测 :人 类 视觉 的 边缘 )， 
153~155 
LOG edge,Gaussian filtering and {LOG 边缘 ， 高 斯 滤波 
器 )，149~157 
dextrous virtual work (虚拟 灵巧 手术 )，537~538 
DFT (discrete Fourier transform) (离散 传 里 叶 变 换 )， 
179~181 
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difference operators for 2D images ( 2D 图 像 的 差分 算 子 )， 
144~149 
differencing ID signals (1D 信 号 差分 )，141~144 
differencing masks, detecting edges using (差分 模板 ， 用 
于 检测 边缘 ) 141~149 
diffuse: definition ( 漫 反射 : 定义 )，204 
reflection (反射 )，204~205 
digital image (s) (数字 图 像 )，3 
definition (定义 )，29 
formats (格式 )，3S~40 
picture functions and ( F(R pHa), 29~35 
problems with ( 问题 ) 27~29 
dilation: of binary images (膨胀 ， 二 值 图 像 的 )，65 
of binary images, definition (二 值 图 像 的 ， 定 义 )， 
66~67 
conditional (4&4), 71-73 
conditional, definition (条 件 ， 定义)，72 
dimensionality, high ( 维 数 ， 高 )，316 
dimensions primitive (尺度 基 元 )，514 
direction and density of edges in analyzing texture (纹理 
分 析 中 边缘 的 方向 和 密度 )，215~217 
discrete Fourier transform (DFT) (离散 傅 里 叶 变换 )， 
179~181 
discrete relaxation:labeling (离散 松弛 : 标记 )， 
354~356,357 
labeling block edges via (标记 模块 边缘 )，382 
discrimination, improving 辨别， 改进)，521~523 
disparity, definition (视差 ， 7232), 398 
dissolve, definition (#2, €X), 272~273 
distance: darkening with (#235, ŒH), 206~207 
image distance measures (图 像 距离 测度 )，230~244 
measures,multiple,indexing for content-based image 
retrieval with (测度 ， 多 ， 基 于 内 容 的 多 距离 测度 图 
像 索 引 )，248 
pick-and-click 《挑选 -点 击 ) ,234~235 
relational,matching (相关 ， 匹 配 ) ,359~363 
distortion:chromatic (上 畸变 彩色 )，29 
geometric (几何 )，27 
radial ( 径 向 )，366~367 
distribution: normal, definition (分 布 : 正 态 ， 定 义 )， 
116 
parametric models for (参数 模型 )，116~117 
probability (概率 )，114~115 
document retrieval (DR) (文档 检索 )，97~98 
DR {document retrieval) (文档 检索 )，97~98 
dynamic thresholding (JARAH), 89 


E 
edge (s) (边缘 )，377 
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aggregating consistent neighboring edges into curves 
( 相 邻 连贯 的 边缘 牛 成 曲线 ) ，301~303 
block,labeling via backtracking (模块 ， 回 询 法 标记 )， 
381 
block,labeling via discrete relaxation 模块， 离散 松 
弛 法 标记 )，382 
density and direction in analyzing texture (纹理 分 析 中 
边缘 的 密度 和 方向 )，215~217 
detecting using differencing masks ( 用 差分 模板 检测 )， 
141~149 
detecting with LOG filter (用 LOG 滤 波 器 检测 )， 
151~153 
human, detection of (A2E, Ml), 153~155 
jump (BKEK), 373 
LOG, Gaussian filtering and detection of (LOG, 高 斯 滤 
波 器 和 检测 )，149~157 
surface-edge-vertex models (表面 ~ 边 - 顶 点 模型 )， 
480~483 
edge detector, Canny (边缘 检测 算 子 ，Canny)，157~158 
and linker (连接 )，297~301 
edgeness per unit area (每 单位 面积 的 边缘 数 )，216 
eigenspace recognition by appearance (特征 空间 表象 识 
别 )，522 
8-neighbors (8- 邻 域 )，52 
elastic matching (弹性 匹配 )，240 
electromagnetic spectrum (电磁 谱 )，188 
ellipse (HAIL), 484 
axes,lengths and orientations ( 轴 ， 长 度 和 方向 )， 
78~79 
empirical error rate,definition (经 验 错误 率 ， 定 义 )，96 
empirical interpretation of error (误差 的 经 验 解 释 )，315 
empirical reject rate,definition (经 验 拒绝 率 ， 定 义 )，96 
encapsulated postscript (EPS) format (EPS 格 式 )，39 
enclosure primitive (包围 性 基 元 )，514 
encoding: octrees ( 编码 : 八 又 树 )，485~486 
RGB (red-green-blue) ,conversion to HSI (hue- 
saturation-intensity) (RGB ( 红 - 绿 - 蓝 )， 到 HSI ( 色 
调 -饱和 度 -亮度 ) 的 转换 )，196 
run-length,using for connected components labeling 
(游程 ， 用 于 连 首 成 分 标记 ) 62~63 
YUV (YUV),197 
energy,minimizing {能量 ， 最 小 化 )，491~492 
enhancing images (图 像 增强 )，11~12,128~186 
definition (定义 )，130 
entropy: computations (Wj: 计算 )，110 
of a set of events, definition ( -一 组 事件 ， 定 义 )，109 
epipolar:constraint ( 外 极 线 : 约束 )，402~403 
geometry (几何 )，402~403 
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lines,definition ( 直线， 定义 )，402 
plane, definition (Ei, 定义 )，402 
epipole, definition (SMRA, X), 402 
EPS (encapsulated postscript) format (EPS 格 式 ) 39 
equalization,histogram (均衡 化 ， 直 方 图 )，132~134 
erosion of binary images (一 值 图 像 腐蚀 ) 65 
definition (定义 )，66~67 
error (s):coverage versus (误差 ， 与 场景 覆盖 ) 403 
definition (#232), 316 
empirical interpretation of (#29 AF PE), 315 
false alarms and false dismissals ( 误 报 和 泪 报 ) 96~97 
rate, classification system ( 率 、 分 类 系统 )，96 
statistical interpretation of (统计 解释 )，315~316 
estimation: pose (ffit: 位 姿 )，453~460 
pose estimation procedure (位 姿 估 计 过 程 )，439~444 
Euclidean distance: definition ( 欧 几 里 得 距离 ， 定义 )， 
100 
scaled definition (尺度 比 定义 )，103 
even functions 《( 偶 函数 )，176 
external corners (外 角 )，4-~6 
external energy (外 部 能 量 )，492 
extracting non-iconic representations (抽取 非 图 像 表 示 )， 
14 
extractor,feature ( 外部， 特征 )，94 
extremal axis length ( 极 轴 长 度 }，77 
extremal points (极点 )，76~78 
extrinsic camera parameters (外 部 摄像 机 参数 )，445~449 
eye, as camera (有 眼睛 ， 像 摄像 机 )，26-27, 参见 iris- 


scanning system 


face(s) (ABS), 377 

finding (检测 )，240~241 

identifying (识别 )，201~202 
fade, definition (1%, ÆX), 272~273 
false alarms，{( 误 报 ) 96~97 
false dismissals ( 漏 报 )，96~97 
fast Fourier transform (快速 傅 里 叶 变 换 )，181~182 
feature extraction (特征 抽取 )，498 
feature extractor (特征 抽取 算 子 )，94 
feature vector representation (特征 向 量 表示 )}，100 
feedforward networks, multilayer (前 向 网 络 ， 多 层 )， 
123~126 
field of view (FOV) :angular ( 视 场 : 角 )，31 

definition (#232), 31 
file formats: GIF (Graphics Interchange Format) (文件 
格式 : GIF), 38 


JPEG (Joint Photographic Experts Group) (联合 摄 
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影 专 家 组 )，38~39 
MPEG (Motion Picture Experts Group) for video ( 视 
频 运动 图 像 专 家 组 )，39~40 
TIFF (Tag Image File Formab (标记 图 像 文件 格式 )，38 
参见 formats 
file headers (文件 头 ) , 36 
filtering: bandpass (滤波 器 : HÉ), 181 
Gaussian LOG edge detection and (高 斯 ，LOG 边 缘 检 
测 )，149~151 
images (图 像 ) , 128~186 
LOG, Marr-Hildreth theory (LOG, 马尔 -海尔 德 斯 理 
论 )，155~157 
median (中 值 )，137~141 
filter (s):box,definition (HER: E., £X), 136 
Gaussian (高 斯 )，136~137 
LOG, detecting edges with (LOG， 检 测 边缘 )，151~153 
masks as matched (匹配 滤波 模板 )}，158~167 
find procedure (find 过 程 )，59~60 
fishtank virtual reality ( 鱼 秆 虚拟 现实 )，539 
fitting: constraints (WHA: 约束 )，317 
models to segments (线段 拟 合 模型 ) , 312~317 
problems (问题 ) 316~317 
segmenting curves via ( 曲线 分 段 )， 
flesh finding ( 人体 检测 )，241~242 
flight simulation (飞行 仿真 )，529 
FOC (focus of contraction), definition (收缩 中 心 , 定义 )， 
255 
focus: depth of field and (焦距 : 景深 )，404~406 
features (特征 ) , 341~342 
interpreting depth from (根据 焦距 变化 求 深 度 ) ,393 
focus of contraction(FOC) (收缩 中 心 )，254 definition 
(定义 )，255 
focus of expansion (FOE) (膨胀 中 心 )，254,393 
definition (#32), 255 
FOE (focus of expansion ) 


317 


(膨胀 中 心 ) 254,255 
foreground pixels (前 景 像素 )，51 
foreshortening (44849), 42,385~386 
definition (#32), 384 
fork junctions ( Xit), 377 
formats: commonly used (格式 : 常用 的 )，36~37 
comparison of (比较 )，40 
digital image (数字 图 像 )，35~40 
EPS (encapsulated postscript) (封装 的 PostScript) ,39 
GIF (Graphics Interchange Format) ( 图 形 交 换 格式 )， 
38 
JPEG (Joint Photographic Experts Group) 
影 专家 组 )，38~39 
MPEG (Motion Picture Experts Group ) for video ( 运 


(联合 摄 


动 图像 专 家 组 )，39~40 
PostScript, 39 
TIFF (Tag Image File Format), (标记 图 像 文 件 格 式 )， 
38 
4-neighbors (4- 邻 域 )，52 
4-tuples (4 元 组 )，508 
Fourier analysis ( 傅 里 时 分 析 )，172 
Fourier basis ( 傅 里 叶 基 )，174~175 
image processing operations using (图 像 处 理 运算 )， 
175 
Fourier power spectrum,definition ( 傅 里 叶 -功率 谱 ,定义 )， 
177 
Fourier transform (EH Æ), 223 
definition (ŒX), 177 
discrete (离散 )，179~181 
fast (快速 )，181~182 
FOV (field,of view):angular (Hig: 角 )，31 
definition (定义 )，31 
frame buffer ( 帧 缓存 区 )，23~24 
frame grabber ( 帧 捕捉 器 )，23 
frames of reference (参考 坐标 系 )，42~45 
Freeman chain code (Freeman 链 码 )，293 
Frei-Chen basis (Frei-Chen 基 )，163~167 
frequency, spatial, analysis of using sinusoids (#34, 23 
间 ， 利 用 正弦 波 分 析 )，172~184 
front image plane (前 图 像 平面 )，395 
functional models,matching {功能 模型 ， 匹配 )， 
513~514 
functional properties,GRUFF (功能 属性 ，GRUFF ) ， 
514-515 
functions, odd and even (图 数 ， 奇 偶 )，176 
fuzzy classification ( 模糊 分 类 )，124 


G 


games, Decathlete (游戏 ，Decathlete ) ，255~256 
Gamma correction (Gamma 校 正 )，131 
gates,AND,OR,and NOT ( 门 ， 与 、 或 、 非 )，121，125 
Gaussian filter (高 斯 滤波 器 )，136~137 

definition (定义 )，137 
Gaussian filtering, LOG edge detection and (高 斯 滤波 器 ， 
LOG 边 缘 检 测 )，149~157 
Gaussian function,definition (高 斯 函数 ， 定 义 )，149 
Gaussian noise (高 斯 噪声 ) 136~137,315 
Gaussian smoothing (高 斯 平滑 )，156 

masks (模板 )，144 
Gaussians, useful properties of ( 高斯， 有 效 特性 )，151 
gear_body (HABAMI. KMHKRR AW 
分 ) ,68,71 
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generalized-cylinder models (广义 圆柱 模型 ) 483~484 
Generic Object Recognition Using Form and Function 
(GRUFF) system (GRUFF), 513~516,517 
geometric distortion (几何 畸变 )，27 
geometric hashing 《 儿 何 散 列 )，346~350 
geometric icons (几何 图 标 )，504~506 
geometric models, matching via alignment (几何 模型 ， 
比 对 匹配 ) 496~504 
geometry,used in Tsai calibration method (几何 学 ，Tsai 
标定 方法 )，446~447 
geons (几何 离子 )，504~506 
GIF (Graphics Interchange Format) (图 形 交 换 格式 )， 
38 
gradient, texture 《梯度 ， 纹 理 )，385~387 
Graphics Interchange Format (GIF) (图 形 人 交换 格 式 )， 
38 
graph-matching algorithms (图 匹配 算法 )，106 
graph-partitioning clustering technique, Shi’ s (图 分 割 
聚 类 技术 ，Shi 的 ) 286~289 
graphs:aspect (图 : 表象 )，488~489 
region adjacency (区 域 邻 接 )，81~82 
region adjacency,definition (区 域 邻接 ， 定 义 )， 
81~82 
gray-level mapping ( 灰 度 级 映射 )，130~134 
gray-scale image (s) :definition ( 灰 度 级 图 像 ， 定 义 )， 
30 
thresholding ( 国 值 化 )，83~89 
grayval/binsize ( 灰 度 值 / 箱 格 大 小 ) ,85 
Greedy Exchange algorithm ( 贪 禁 交 换算 法 ) 267, 268, 
270 
grids ( 栅 格 ) 437~439 
group homogeneity (组 内 均衡 性 )，86~88 
GRUFF (Generic Object Recognition Using Form and 
Function) system (GRUFF 系 统 }，513~516,517 
category hierarchy (类 别 层次 )，515~516 
definition tree (定义 树 )，515 
functional properties (功能 属性 )，514~515 
knowledge primitives (知识 基 元 )，514 
processing by (处 理 )，517 


H 


Hamming distances, ( #¢ RAPER BY), 560~561 
haptic sense, definition ( 触觉， 定义 )，540 
hard constraints ( 硬 约束 )，490 
hash function ( 散 列 国 数 )，244 
hash indexes ( 散 列 索引 ) ，244~245 
hash table (s) 【〈 散 列表 ) ，244 

in relational indexing (相关 索引 )，508 


hashing, geometric，( 散 列 ， 几 何 ) 346~350 
HCI issues, in virtual reality (VR) systems ( 人 机 交互 问 
题 ， 在 虚拟 现实 系统 中 ) ，546 
head-mounted displays (HMDs) ( 头 戴 式 显示 器 )， 
530,535~537 
heuristics,for detection of zoom ( 启发 式 ， 检 出 变焦 ) ， 
276 
hexacone (六 楼 锥 )，194,195 
hidden units ( 隐 层 神经 元 )，124 
high contrast, detecting (高 对 比 度 ， 检 测 )，141~143 
high dimensionality (高 维 数 )，316 
highlight, definition (高 亮 区 ， 定 义 )，206 
histogram (s) : clustering methods based on (直方 图 : 
聚 类 方法 )，284~286 
color (颜色 )，199~201,231,233 
comparing (比较 )，274,276 
definition (定义 )，84 
equalization (均衡 化 )，132-34 
mode seeking { 模 示 搜 索 ) 284-85 
Ohlander’s recursive histogram based clustering technique 
(Ohiander 递 归 直 方 图 聚 类 技术 ) ，285~286,287 
shape (形状 )，236~237 
texture (纹理 )，235 
using for threshold selection ( 闷 值 选择 )，83~85 
HMDs (head-mounted displays) ( 头 戴 式 显示 器 )， 
530,535~537 
hole_mask〈 八 边 形 结构 元 ， 直 径 比 圆 孔 稍 大 ) ,68,70 
hole_ring (像素 坏 ， 标 记 圆 孔 中 心 位 置 的 像素 ) , 68, 69, 
70 
holes, counting (4L, it), 4~6 
homogeneous coordinates, definition ( FER, €X), 
329 
Hough transform: algorithm ( 霍 夫 变换 : BE), 306 
Burns line finder using principles of (利用 原理 的 
Burns 直 线 检 测 ) ,311 
for detecting lines and circular arcs (检测 直线 和 圆 弧 )， 
303-12 
encoding gradient direction with (编码 梯度 方向 )， 
318 
extensions (扩展 )，310 
finding circles with, (#7), 309~310 
generalized (广义 )，310 
HSI (hue-saturation- intensity) (色调 -饱和 度 -亮度 )， 
194~197 
encoding, conversion from RGB (red-green- blue) 
encoding (ihg, JARGB (21-22-14) 编码 的 转换 )， 
196 
HSV (hue-saturation-value) system (HSV (色调 -饱和 
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度 - 值 ) 系统 )，194 
hue-saturation-intensity (HS1) (色调 ~ 饱和 度 - 亮 度 )， 
194~197 
encoding,conversion from RGB (red-green-blue) 
encoding (编码 ， 从 RGB ( 红 - 绿 - 蓝 ) 编码 的 转换 )， 
196 
human body,3D models (人 体 ，3D 模 型 )，485 
human edge detection ( 人 类 视觉 的 边缘 检测 ) 153~155 
human heart,modeling motion of (人 体 心 脏 ， 跳动 模型 )， 
494~495 
human perception: color (人 类 感知 : 颜色 )，209 
depth (深度 )，394 
shading used in (基于 明暗 信息 ) 208~209 
hyperplanes ( 超 平 而 )，122 


IBM (IBM) ,226~227 
identification:of humans via iris of eye (识别 : 基于 虹膜 
的 身份 )，554~561 
requirements for identification systems ( 对 识别 系统 的 要 
K), 555~557 
identifying regions:classical clustering algorithms {区 域 
识别 : 经 典 的 聚 类 算法 ) ，281~282 
clustering methods (RAH), 281 
in image segmentation (图像 分 割 )，280~291 
region growing (区 域 增长 ) 289~291 
IDFT (inverse discrete Fourier transform) 《离散 傅 里 叶 
反 变 换 )，180~181 
illuminated objects,sensing (被 照射 物体 ， 感 测 )，189 
illumination boundary,definition (光照 边界 ， 定 义 )， 
374 
image addition (图 像 相 加 )，12 
image-based rendering, definition (基于 图 像 的 绘制 ， 定 
X), 543 
image collections 图片 收藏 库 ) 、227-~228 
image data (图像 数 据 )，36 
image databases ( 图 像 数 据 库 )，3~4,226~230 
queries (查询 )，228~230 
image distance measures (图 像 距离 测 度 )，230~244 
image energy (图 像 能 量 )，、491~492 
image enhancement: convolution and cross correlation 
(图 像 增强 : 卷 积 和 交叉 相关 )，167~172 
definition (定义 )，130 
detecting edges using differencing masks ( 差分 模板 检 
测 边缘 )，141~149 
Gaussian filtering and log edge detection (高 斯 滤波 器 
和 LOG 边 缘 检 测 )，149~]157 
gray-level mapping ( 灰 度 级 映射 )，130~132 


histogram equalization ( 直方 图 均衡 化 ) ，132~134 
image smoothing (图 像 平滑 }，136~137 
median filtering {中 值 滤 波 )，137~141 
removal of small image regions (去 除 小 图 像 区 域 )， 
134~135 
image file formats:comparison of ( 图 像 文件 格式 : 比较 )， 
40 
GIF (Graphics Interchange Format) (图 形 交 换 格 式 )， 
38 
TIFF (Tag Image File Format) (标记 图 像 文件 格式 )， 
38 
image file header ( 图像 文 件 头 )，36 
image flow:computing (图 像 流 : 计算 )，262~263 
definition (定义 )，255 
equation (公式 )，263~264 
solving for by propagating constraints (传播 约束 求 
ff), 264~265 
image formation ( 图像 形 成 )，24~26 
image histograms ( 图像 直方 图 )，83~85 
image operations (图像 运 算 )，10~14 
image piane,front (图 像 平面 ， 前 )，395 
image processing (图 像 处 理 )，128~186 
definition (722), 15~16 
Fourier basis used for (采用 傅 里 时 基 )，175 
image quantization, spatial measurement and (图 像 量化 ， 
空间 度量 ) ,31~35 
image registration, definition ( 图像 配 准 ， 定 义 )，、327 
image representation, imaging and (图 像 表 示 ， 成 像 )， 
21~50 
image restoration,definition (ARKH. ZS), 130 
image segmentation (图 像 分 割 )，279~325 
identifying regions ( KIRS), 280~291 
image subtraction (图 像 相 减 )，12,253~254 
image understanding,definition {图像 理解 ， ZX). 
15~16 
image warping (图 像 变 形 )，12 
imagery,real and synthetic ( 图 像 ， 真 实 和 合成 )， 
542~545 
image (s) :acquisition of ( 图像: 获取 )，461~463 
analog, definition (H1, #2), 29 
basis,computing ( 基 ， 计 算 )，519~521 
basis, for set of training images( 基 , 对 于 训练 图 像 集 )， 
518~519 
binary,analyzing 《二 值 化 ， 分 析 )，S$1~91 
binary, definition (二 值 化 ， 定 义 )，30 
color (ff). 45~46 
computing features from (计算 特征 )，13 
computing output from input (从 输入 计算 输出 )， 
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139~141 

content-based, indexing for retrieval with multiple 
distance measures (基于 内 容 的 ， 多 距离 测度 图 像 索 
51), 248 

counting objects in (目标 计数 )，54~56 
digital,definition (数字 ,定义 )，29 

digital, formats ( 数字， 格式 )，35~40 

digital, picture functions and (数字 ,图像 函数 )， 
29~35 

digital,problems with, (数字 ， 问 题 ) 27~29 
enhancing (增强 )，11~12 

filtering and enhancing (滤波 和 增强 )，128~186 
gray-scale, definition (KER, ŒX), 30 
gray-scale, thresholding (KÆR, WEE), 83~89 
improving (改善 )，129~130 

intrinsic (本 征 }，371~376 

labeled (标记 的 )，292 

labeled, definition (标记 的 ， HX), 30 

masks applied to (模板 运算 )，53~54 

matching in 2D (2D 匹 配 ) ，326-~370 

multiple (多 幅 )，12 

multispectral (多 谱 )、45~46,210 

multispectral, definition (多 谱 ， 定义 )，30 
perceiving 3D from 2D ( 2D 图 像 中 的 3D 信 
息 ) ,371~409 

pseudo-colored ( (#4), 30 

range (RIE), 47~49 

raw (JR), 35 

removing small regions from (去 除 小 区 域 ) 134~135 
retrieving content-based (基于 内 容 检 索 ) 226~250 
run-coded binary (游程 编码 二 值 ) 37 

smoothing (平滑 )，136~137 

thematic ( 主题 ) 30,210 

tracking edges of binary edge image (一 值 边缘 图 像 的 
边缘 跟踪 )，303 

training, basis images for set of (JIA, BER), 
518~519 

2D,3D structure from (2D, 3D 结 构 )，42 
2D,difference operators for (2D， 差 分 算 子 ) ， 
144~149 

2D,motion from sequences of (2D ， 序 列 求 运动 )， 
251~278 

3D cues in 2D images (2D 图 像 中 的 3D 线 索 ) ， 
383~388 

types of (类 型 )， 
models 
three-dimensional (3D) images 3 维 图 像 
two-dimensional (2D) images 2 维 图 像 


29-31, 参见 perspective imaging 


imaging: devices (成 像 : 设备 )，22~27 
image representation and (图 像 表示 )，21~50, 参见 
perspective imaging models 
independent test data,definition (独立 测试 数据 ， 定 义 )， 
96 
indexes:B+-tree (索引 : B+- 树 ) ，245~247 
hash (#71), 244~245 
K-d tree (K-dj#})}, 247 
R-tree (R- 树 )，247~248 
spatial ( 空间 )，247~248 
standard (标准 )，244~247 
indexing: for content-based image retrieval with multiple 
distance measures (#5|: 基于 内 容 的 多 距离 测度 图 像 
索引 )，248 
relational ( 相关 )，363~364,508,510,511, 参见 RIO 
object recognition system 
input images,computing from output images (输入 图 像 : 
计算 输出 图 像 )，139~141 
inspection,crossbars (检查 ， 交 叉 支 撑 杆 )，4~6 
integrated tracking (集成 跟踪 ) ,271~272 
空间 约束 )，472 





integrating,spatial constraints ( 综合， 
intensity ( 强度 )，393 
mapping (WRIT), 131 
values ({H), 46, 参见 HSI (hue-saturation-intensity ) 
interactive segmentation of anatomical structure (解剖 组 
织 的 交互 式 分 割 )，529 
interest operators (兴趣 算 子 )，257~258 
interesting points (兴趣 点 )，256~261 
internal corners (内 角 )、4~6 
interposition (穿插 )，、42 
definition (定义 )，384 
interpretation trees (IT) ( 解释 树 )，352~354 
definition (#%), 352 
line drawing (线条 图 )，380 
intrinsic camera parameters ( 内 部 摄像 机 参数 )，445 
intrinsic images (本 征 图 像 }，371~376 
scene values (场景 值 )，375 
invariant features (不 变 特征 )，14 
inverse discrete Fourier transform (IDFT) (离散 傅 里 时 
KER), 180~181 
inverse perspective (HZ), 439 
iris-scanning system (虹膜 扫描 系统 )，554~561 
hardware components (硬件 组 成 )，557~558 
560~561 
representation in (#75), 558~560 
system design (系统 设计 )，557~560 
isodata clustering (isodata XÆ), 282~284 


performance (HEHE), 
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IT (interpretation trees) (解释 树 )，352~354 
definition (Æ X). 352 
line drawing (线条 图 )，380 


J 


Jacobian matrix (Jf Hl LE AGRE), 441~442 
Joint Photographic Experts Group (JPEG) : (联合 摄影 
专家 组 )， 
format (格式 )，38~39 
Motion (运动 )，39~40 
JPEG (Joint Photographic Experts Group) : 
专家 组 )， 
format (格式 )，38~39 
Motion (运动 )，39~40 
jump edge (跳跃 边缘 )，373 
definition (定义 )，374 
junction pixels (连接 像素 )，301 
junctions (连接 )，377 
types of ( 类型) 377~378 


K 


K-d tree indexes (K-d 树 索引 )，247 

K-means clustering, iterative ( K-JAR X, vEtE), 282 
keywords (关键 词 ) 228~229 

knowledge-based thresholding (基于 知识 的 装 值 化 )，89 
knowledge-directed thresholding (面向 知识 的 阔 值 化 )， 
285 

knowledge primitives,GRUFF (知识 基 元 ，GRUFF)，514 


L 


L-junctions (L 连 接 )，377 
label,definition (标记 ， 定义)，351 
LABEL field (LABEL 字 段 )，62~63 
labeled image (s) (标记 图 像 )，292 
definition (定义 )，30 
labeling: block edges via discrete relaxation (标记 离散 
松弛 法 标记 模块 边缘 )，382 
connected components (连通 成 分 )，56~63 
connected components,using run-length encoding for 
(连通 成 分 : 游程 编码 ) 62~63 
consistent (—#¢#E), 351~353 
continuous relaxation ( 连续 松弛 )，356~359 
cubes (立方 体 ) 466~467 
discrete relaxation ( BRAWE), 354~356,357 
edges of blocks via backtracking ( 回 淹 法 标记 模块 边 
%), 381 
line drawings of blocks (模块 线条 图 )，377~383 


lines via relaxation (松弛 法 线段 )，381~383 
terms (术语 ) ,377 
labeling algorithms:recursive (标记 算法 : 414), 57-59 
row-by-row (%47), 59 
labels function (标记 函数 )，61 
lake_num ( 湖 数 )，112 
lakes ( 湖 )，112 
Lambertian reflectance model ( 朗 伯 反射 模型 )，469~471 
Lambertian reflection (BA{A $f), 204~205 
laser light projectors (HOCH HAN), 438 
Laws texture energy measures (Laws 纹 理 能 量 测 度 ) ， 
220~222,224 
layout,color (分 布 ， 颜 色 ) ，232~233 
leaf nodes {叶子 节点 )，107,245~247 
quadtree (四 叉 树 )，294, 参见 nodes 
learning:machine (学 习 : 机 器 }，119 
supervised (监督 )，119 
supervised,on Veggie Vision (监督 ，Veggie Vision), 
553~554 
unsupervised (无 监督 )，119 
least-squares:error criteria, definition 《最 小 二 乘 误差 指 
tr, HEM), 313 
method (方法 )，312~314 
problem defining 〈 合 题 ,定义 )，431~436 
lenses (镜头 ) 24, 参见 thin lens equation 
LIDAR (light detection and range) devices ( 光 检 测 与 
测 距 设备 ) 47~48 
lid_bottomof_image ( 盖 在 图 像 底 部 )，、112 
lid_num ( 盖 数 )，112 
lid_right_of_bay ( 盖 在 湾 右 侧 )，112 
lids (#), 104,112 
light:ambient (X: SRH), 207~208 
ambient,definition ( 环境， 定义)，208 
darkening with distance ( 随 距 离 增 加 而 变 暗 ) ， 
206~207 
diffuse reflection of (72/7 $+), 204-205 
radiation from one source of (来 自 单一 光源 的 辐射 )， 
203~204 
sensing ( 感 测 )，21~22,189 
specular reflection of (镜面 反射 )，205~206 
structured (结构 )，437~439 
use of (使 用 )，41~42 
white, definition ( 白 ， 定义 )，189 
light detection and range (LIDAR) 
devices (设备 )，47~48 
limb (#34), 373 
definition (#32), 374 
line drawings:interpretation tree for ( 线条 图 : 解释 树 )，380 


( 光 检 测 与 测 距 ) , 
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labeling drawings of blocks ( 模块 的 线条 图 标记 )， 
377~383 
linear optimization,constrained (线性 优化 ， 约 束 ) ， 
456~457 
linear transformations,scaling 
329~330 
lines:Burns line finder (线段 :Burns 直 线 检 测 器 ) 
311~312 
detecting with Hough transform (用 和 霍 大 变换 检测 )， 
303~312 
epipolar ( 外 极 线 )，402 
fitting ( 拟 合 )，313~314 


(线性 变换 ， 缩 放 ) 


labeling via relaxation (松弛 法 标记 )，381~383 
straight,finding ( 直线 ， 检 测 )，304~309 


virtual (虚拟 )，393~394 
linker, Canny edge detector and 
检测 算 子 )，297~301 
local binary paritition ( 局 部 二 值 分 解 )，217 
local-feature-focus method,of object recognition ( 局 部 特 
征 焦 点 法 ， 目 标识 别 )，341~344 
location of model point and image point (模型 点 和 图 像 
点 的 位 置 )，335~338 
LOG edges,Gaussian filtering and detection of ( LOGW& , 
高 斯 滤波 器 LOG 边 缘 检测 )，149~157 
LOG filtering,Marr-Hildreth theory ( LOG 滤 波 器 ，Marr- 
Hildreth 理 论 )，155~157 
LOG filters,detecting edges with (LOG 滤波 器 ， 边 缘 检 
测 )，151~153 
looming (iff) ,393 
lossless compression,definition (无 损 压 缩 ， 定 义 )，36 
损 压 缩 ， 定 义 )，36 
(ARBRE. 0), 


(连接 算 子 ，Canny 边 缘 


lossy compression,definition (有 
low-level features,detection of 
129~130 


luminance (亮度 )，197 


M 


Mach band effect, artificial neural network 
to produce (马赫 带 效 应 、 人 工 神 经 
153~155 

machine learning (机 器 学 习 )，119 
machine vision,definition (WLW, HL). 1 
Magic Value ( Efi), 37 
magnetic resonance angiography 
管 造影 术 ) ，47 

magnetic resonance imaging (MRI) (核磁 共振 成 像 )， 
6~7,47,210 

mapping: affine, 2D object recognition via (映射: fi Ht. 
2D 目 标识 别 )，341~350 


(ANN) used 
网 络 产生 )， 


(MRA) (E RJE HR fN 
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functions,affine ( 国 数 ， 仿 射 )、329~339 
gray-level ( KÆR), 130~134 
polynomial (多 项 式 )，367 
texture (纹理 )，542~545 
mark,definition (标记 ， 定 义 )，374 
Marr-Hildreth theory (Marr-Hildreth 理 论 )， 
(模板 )，134 
applying to images (图 像 )，53~54 
box smoothing ( 盒 形 平滑 )，144 
derivative (导数 )，141~144 
differencing, detecting edges using ( 其 分 ,边缘 检测 ) 
141~149 
Gaussian smoothing (aH Fit). 144,151,152 
for implementation of LOG filter (LOGHI @ ) 
151,152~153 


as matched filters 


155~157 


mask (s) 


( VU AC HEIR ZS) ,158~167 
operations defined via (运算 定义 )、167~168 

origins (原点 )，5 

Prewitt (Drew) 1 146,148~149,307 

properties of derivative and smoothing (导数 和 平滑 模 

板 的 特性 ) ，143~144 

Roberts (Robert), 146~147 

Sobel (Sobel), 146,147 
matching:boundary (匹配 : 边界 )，237~238 

elastic (SHE), 240 

functional models (功能 模型 )，513~514 

geometric models via alignment (几何 模型 比 对 ) 
496~504 
relational distance (相关 距离 )，359~363 
relational, 2D object recognition via, (4#H%, 
ABI), 350~364 


relational models (% 


2DH $R 
系 模型 )、504~513 
sketch ( EI), 238~240 


symbolic,and relational constraints 


(RIF. 相关 约束 )， 


401 

in2D (4), 326~370 

3D models and (3D 维 模型 ) ，479~526, 参 见 alijgnment 
mathematical morphology (数学 形态 学 )，63 


matrix: best affine calibration (pE: 最 佳 仿 射 标定 )， 
431~437 
co-occurrence (E/E), 217~220 
perspective transformation (透视 变换 )， 
MaxCol (最 大 列 )，56 
max-error criteria,definition (最 大 误差 指标 、 定 义 )， 
313 
maximum intensity projection (MIP) (最 大 强度 投影 )，47 
MaxRow (最 大 行 )，56 
MDFs (most discriminating features) (最 佳 分 类 特征 )， 


423~426 
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522 

mean radial distance (平均 径 向 距离 )，7 

measurement, spatial, image quantization and (度量 ， 空 

问 ， 图 像 量 化 )，31-~35 

measure(s):color similarity (度量 : 颜色 相似 度 )，231~233 
distance,indexing for content-based image retrieval 
with multiple (距离 ， 基 于 内 容 的 多 距离 测度 图 像 索 
st), 248 
image distance (图像 距离 )，230~244 
object presence and relational similarity (目标 检测 及 
空间 关系 度量 )，240~244 

measuring:shape similarity (度量 : 形状 相似 性 )， 
texture (纹理 )，215~223 
texture similarity (纹理 相似 性 )，233~235 

median:definition (fA, #32), 138 
filtering (EW), 137~141 

MEFs (most expressive features) (最 佳 描述 

521~522 

memory,faster search of (内 存 ， 快速 搜 索 )}，521~523 

mesh:balloon models for 3D (网 格 : 3D 气 球 模 型 )， 

493~494 

models (模型 )，472,480,481 

(规则 )，480 

(三 角形 )，480 


method of least squares (最 小 


235~240 


术 特 征 )， 


regular 
triangular 
二 乘法 )， 
microdensitometer 〈 测 微 密 度 计 )，45 
MIP (maximum intensity projection) ( 最 大 强度 投影 )，47 
mixed reality (混合 现实 )，530 
(定义 )，535 
models:active contour (模型 : 活动 轮 廊 )，489~492 
balloon for 3D (3D 气 球 ) ,493~494 
fitting to segments (线段 拟 合 )，312~317 
generalized-cylinder (广义 圆柱 )，483~484 
matching functional (功能 匹配 )，513~514 
matching geometric via alignment (几何 模型 比 对 匹 
Ad), 496~504 
mesh 《网 格 ) 472,480,481 
parametric (参数 )，116~117 
perceptron (感知 器 )，120~123 
perspective imaging (透视 成 像 )，395~397 
physics-based and deformable (物理 学 和 可 变形 )， 
489~495 
relational,matching (KA, PLA), 504~513 
surface-edge-vertex (表面 - 边 -顶点 )，480~483 
3D,and matching (3D ， 和 匹配 )，479~526 
3D relational (3DHR), 504~506 
true 3D versus view-class (实际 3D 与 视 类 )， 
2D-3D alignment (2D-3D 比 对 )，498~501 


312~314 


definition 


488~489 
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view-class relational (#3 HR), 506~513 
wire-frame (28#£), 480, 参见 three dimensional 
(3D) models 
moment. (%4), #)second moment, second-order 
morphology,binary image (形态 学 ， 二 值 图 像 )，63~73 





most discriminating features (MDFs) (最 佳 分 类 特征 )， 
522 
most expressive features (MEFs) (最 佳 描述 特征 ) ， 
521~522 
motion:aggregating motion trajectories (运动 : 运动 轨迹 
RÆ) ,321-324 
coherence, segmentation using ( 一 致 性 ， 运 动 一 致 性 
分 割 )，321~324 


computing paths of moving points (计算 运动 点 路 径 )， 
265~272 
modeling of human heart (建立 心脏 跳动 模型 ) ， 
494~495 
phenomena (现象 ) 393 
phenomena and applications (现象 和 应 用 )，251~253 
structure perceived from (从 运动 恢复 结构 ) 
472~475 
from 2D image sequences (从 2DD 图 像 序列 求 运 
251~278 


in virtual reality (VR) systems 


动 )， 
(虚拟 现实 系统 )，540 
motion field:definition (运动 场 : #32), 254~255 
point correspondences used to compute (点 对 应 计算 )， 
256~271 
Motion Joint Photographic Experts Group (JPEG) 
format (MPEG 格 式 ) , 39~40 
Motion JPEG (Joint Photographic Experts Group ) 
format (MPEG 格 式 ) , 39~40 
motion parallax (运动 视差 )，386 
definition (定义 )，387 
Motion Picture Experts Group (MPEG) :compression of 
video (运动 图 像 专 家 组 :视频 压缩 )，261~262 
项 格式 ) 39~40 
motion vectors:computing (运动 向 量 : 计算 )，254~265 
deriving for interesting points (计算 兴趣 点 的 运动 向 
量 )，260 
MPEG (Motion Picture Experts Group) : compression 
动 图 像 专家 组 : 视频 压缩 ) 261~262 
format for video (视频 格式 ) 39~40 
MRA (magnetic resonance angiography) (核磁 共振 血管 
造影 术 )，47 
MRI (magnetic resonance imaging) (核磁 共振 成 像 )， 
6~7,47,210 
multidimensional data,decisions using (多 维 数据 ， 多 维 
数据 决策 )，117~119 


format for video (视频 


of video ( 运 








multilayer feedforward network (多 层 前 向 网 络 ) ， 
123~126 

multiple images,combining (多 幅 图 像 ， 组 合 )，12 
multispectral image (s) (多 谱 图 像 )，45~46,210 


definition (定义 )，30 
N 


nearest-neighbor rule (最 近邻 规则 )，103 
nearest neighbors,used in classification (最 近邻 ， 分 类)， 
103~104 
Necker Cube/Phenomena (内 克 立 方 体 /现象 )，382 
neighborhoods,pixels and ( 邻 域 ， 像素 }，51~52 
neighbors:nearest,used in classification (Shik: 最 近邻 ， 
分 类 )，103~104 

utility function (Thee BL) ,57~58 
neural nets,artificial (神经 网 络 ， 人 工 )，119~126 
neurons (神经 元 )，119~120 

artificial (人 工 )，120~122 
nodes (节点 )，107,245~247 

octree ( 八 又 树 ) 484~485 
(四 叉 树 )，294 
noise,Gaussian (噪声 ， 高 斯 )，136~137,315 
nominal resolution,definition (〈 标 称 分 辨 率 ， 定 义 )，31 
( 非 偶然 对 齐 ) 394 
non-iconic representations,extracting( 非 图 像 表 示 ,抽取 )， 
14 
nonlinear optimization ( 非 线性 优化 )，316 
nonlinear warping ( 非 线性 变形 )，364~368 
nonmaximum suppression ( 非 最 大 抑制 )，299 
normalized dot product (规范 化 点 积 )，161~162 
normalized RGB coordinates (规范 化 RGB 坐标 , 
192~193 
notation (s) (符号 )，29~31 


pixel values (像素 值 )，23 
O 


object coordinate frame O (物体 坐标 系 O ) 44 

object counting ( 目标 计数 ) 54~56 

object pose computation,3D sensing and (目标 位 姿 计 算 ， 
3D 感 知 )，410~478 

object presence,and relational similarity measures ( 目标 
检测 及 空间 关系 度量 ) ，240~244 

(目标 识别 )，335~338 

2D,via affine mapping ( 仿 射 映射 法 2D 目 标识 别 ) 
341~350 

2D,via relational matching (相关 匹配 法 2D 目 标识 别 )， 
350~364 


quadtree 


non-accidental alignments 


object recognition 
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3D,classifying (3D, 分类)，495~496 
3D, paradigms (3D 目标 识别 范例 )，495~523 

of 3D objects by appearance (基于 外 观 的 3D 目 标识 
BI), 516~523 


3D object recognition paradigms (3D 目 标识 别 范 例 )， 
495~523 
by appearance (基于 外 观 )，516~523 


eigenspace recognition by appearance (特征 空间 外 观 
识别 ) ,522 

Generic Object Recognition Using Form and Function 
(GRUFF) system (GRUFF 系 统 )，513~516,517 
geometric hashing method (几何 散 列 方法 )，346~350 
local-feature-focus method ( 局 部 特征 聚焦 法 )， 
341~344 

RIO system (RIOKAZE), 506~513 
TRIBORS system (TRIBORS 系 统 )， 


recognition 


499~501, 参见 


object reconstruction,3D ( 目标 重 构 ，3D ) 460~468 
occlusion (遮挡 ) ,383~384 

octree(s) ( 八 叉 树 ) 467,484~486 

odd functions ( 奇 国 数 )，176 

offline preprocessing (离线 预 处 理 ) 348,349,508 


O’Gorman and Clowes algorithm (O’Gorman 和 Clowes 
的 算法 ) 305,306,308 
Ohlander’s recursive histogram-based clustering technique 


(Ohlander 递 归 直 方 图 聚 类 技术 ) 285~286,287 


one-dimensional (1D) signals,differencing (1D 信 号， 
差分 }，141~144 
online recognition (在 线 识 别 )，348,350 


opening of binary images 人 aH), 65~66 
definition {定义 ), 6 
operations, defining via masks (ia, 
167~169 
operator (s) :Canny ( 算 子 : Canny), 
difference (差分 )，144~149 
interest (兴趣 )，257~258 
Prewitt (Prewitt), 146,148~149 
Roberts cross (Roberts 交 叉 算 子 ) ,146~147 
Sobel (Sobel), 146,147 
optimization:constrained linear (优化 : 
456~457 
nonlinear (4EZ PE), 316 
and verification of pose (位 姿 验证 ) ,460 
ordering constraint (顺序 约束 )，403 
organizing databases (组 wane 244~248 
origins, mask ( 原点 ， 模 板 )，5 
orthogonal basis,using Cree 用 )， 


板 运 算 定 义 )， 


157~158 


约束 线性 ) 


160~162 
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orthogonal transforms,definition ( 正 交 变换 ， 定 义 )， 
331~332 

orthographic projection (s) ( 正 投影 ) .426~428,470 
orthonormal transforms,definition ( 标准 正 交 变换 , 定义 )， 
331~332 

Otsu method,automatic thresholding ( Otsu 方 法 ， 自 动 阔 
值 化 )，85~89 

outliers (局 外 点 )，315,316 

output images,computing from input images (输出 图 像 ， 
从 输入 图 像 计 算 )，139~141 

overlays ( 覆 益 图 ) 292 


P 


page description language (页 面 描述 语言 PDL) ,39 
panning ( 扫 视 )，274 
paradigms,3D object recognition ( 范例，3D 目 标识 
HN) ,495~523 
parallax,motion (视差 ， 运动 )，386,387 
parallel implementation (并行 实现 )，172 
parallel list (PTLIST) array (并 行 结构 ) ,304,305 
parameters:camera model (参数 : 摄像 机 模型 ) ， 
436~437 
closed form solutions for (封闭 解 )，314~315 
extrinsic camera (外 部 摄像 机 )，445~449 
intrinsic camera (内 部 摄像 机 )，445 
parametric models,for distribution ( 
A) ,116~117 
PARENT arrays (PARENT 数 组 ) ,59~61 
part, definition ( 部 件 ， 定 义 )，351 
pattern recognition: concepts (模式 识别 : HEA), 
92~127 
problems ( |H} Mj), 92~93 
PBM (Portable Bit Map) ( 可 转移 式 点 阵 图 , PBM 格 
式 ) ,37,38 
PDL (page description language) ( 页 面 描述 语言 ，PDL 
格式 ) ,39 


perception: human color ( 感 


(参数 模型 ， 分 


知 : 人 类 色 感 ) ,209~210 
shading used in (HAIR) ,208~209 
of structure from motion (从 运动 恢复 结构 ) ,472~475 
perceptron model ERAD), 120~123 
perimeter length ( HK), 7 
perspective: imaging model 
395~397 
inverse (i), 439 
projections (428%), 426~428 
transformation matrix ( 变换 条 阵 }，423~426 
perspective scaling (透视 缩放 )，385,386 
definition (定义 )，384 


(透视 : 成 像 模型 )， 


Perspective 3 Point Problem (P3P) (二 点 透视 问 
题 ) ,439~444 

PGM (Portable Gray Map) (PGM 格 式 ) ,37~38 

Phong model of shading eee ), 208 

RC, BOW), 

photometric stereo (光度 立体 )，471~472 

physics-based models,deformable and (物理 学 模型 af 
变形 模型 )，489~495 

pick-and-click distance (挑选 -点 击 距离 ) ,234~235 
(图 像 函 数 : 2D)，175~179 


photography, model ( 


picture function (s) :2D 
definition (X), 30 
digital images and (数字 图 像 )， 
(像素 阵列 ) 43~45 
(像素 坐标 系 1)，43~44 
(像素 值 ， 符 号 )，23 
pixels background (像素 : 背景 )，51 
changing values of (改变 像素 值 )， 
definition (定义 )，3 
foreground (Ai $t), 51 
(i442), 301 
neighborhoods and ( 邻 域 )，51~52 
参见 external corners: internal corners 
planes, front image (平面 ， 前 图 像 平 面 )，395 
plates (#t} ), 504~506 
point correspondences, computing motion field with (点 
对 应 ， 计 算 运动 场 )，256~261 
point operator, definition (点 算 子 ， X), 131 
points: computing 3D points using multiple cameras ( 点 : 
多 摄像 机 3D 点 计算 )，428~430 
contributing (贡献 )，498 
control (控制 )，332~334 
location of ({Z#), 335~338 
pose from 2D-3D point correspondences (2D-3D 点 对 
应 求 位 姿 ) ,455~456 
representation of 2D (2D 点 的 表示 )，328~329 
参见 Perspective 3 Point Problem (P3P) 
polygonal approximation ( WIES), 293 
polygons, Voronoi ( 多边形 ，Voronoi)，214~215 
polynomial mappings ( 多 项 式 映 射 )，367 
Portable Bit Map (PBG 格 式 ) ,37~38 
Portable Gray Map (PGM 格 式 ) ,37~38 
pose: clustering (位 姿 : RÆ), 344~346 
definition (定义 )，344 
estimation (ffit), 453~460 
estimation procedure (估计 过 程 )，439~444 
object pose computation and 3D sensing (3D 感 知 与 日 
标 位 瓷 计算)，410~478 


29~35 
pixel arrays 
pixel coordinate frame I 


pixel values,notations 


10~11 


junction 
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from 2D-3D point correspondences (2D-3D 点 对 应 ) 
455~456 
verification and optimization of (验证 和 优化 )，460 
in virtual reality (VR) systems (虚拟 现实 系统 )， 
539~540 
PostScript (PostScript 格 式 ) ,39 
power spectrum (功率 谱 )，177~179 
measuring texture by autocorrelation and (FW A +H XA 
功率 谱 度量 纹理 ) 221~223 
precision: definition ( 查 准 率 ， 定 义 )，97 
recall versus ( 查 全 率 )，97~98 
preprocessing,offline ( 预 处 理 ， 离 线 )，348,349,508 
Prewitt,Judith (Judith Prewitt 博 十 ) ,146,148 
Prewitt masks (Prewitt 模板)，307 
Prewitt operator (Prewitt 算 于)，146 
primary key ( 主键 )，244 
primitives, knowledge ( 基 元 ， 知 识 )，514 
prior_neighbors function (prior_neighbors 函 数 ) ,61 
probability distribution (概率 分 布 )，114~115 
projection (s) :orthographic (投影 : 正 投 影 )， 
426~428,470 
weak perspective ( 能 透视 )，426~428 
projectors:calibration of (投影 仪 ， 标 定 ) ，437 
laser light (激光 )，438 
replacing camera with ( ft SR#E{R HL). 412~413 
property tables, regions represented by (特征 表 ， 区 域 表 
示 )，294~295 
proximity primitive ( 邻近 性 基 元 )，514 
pseudo color ( 伪 彩 色 )，210 
pseudo-colored images ( 伪 彩 色 图 像 )，30 
P3P (Perspective 3 Point Problem) ( :点 透视 问题 ) 
439~444 
solution ( 解 )，442~443 
PTLIST (parallel list) array ( 并 行 结构 PTLIST) ,304,305 
pyramids,interpretation tree for line drawings of ( 塔 状 物 ， 


塔 状 物 线条 图 的 解释 树 ) ，380 
Q 


QBE (query-by-example) (示例 查询 )，229~230 
QBIC (Query by Image Content) database ( QBIC 数 据 
JE), 226-227 
quadtrees (Y4 X), 247-248 
regions represented by {区 域 表示 )}，294 
quantization: effects ( HAE: 效果 )，29 
image, spatial measurement and (图 像 ， 
31~35 
special quantization effects (空间 量化 效果 )，33 
queries,image database ( 杏 询 ， 图 像 数 据 库 ) 228~230 


空间 度量 )， 


query-by-example (QBE) (示例 查询 )，229~230 
Query by Image Content (QBIC) database (QBIC 数 据 
库 )，226~227 

quicksort,modifying (快速 排序 ， 改 进 的 )，139 


R 


R-tree indexes (R- 树 索引 )，247~248 
radial distance:mean ( 径 向 距离 : 均值 )，75 
standard deviation of (标准 差 )，75 
radial distortion,.rectifying (iY, BRIE), 366~367 
radiation,from one light source (照射 ,来 白 单 一 光 
源 ) ,203~204 
RAG (region adjacency graphs) ( 区域 邻 接 图 )，81~82 
definition (定义 )，81~82 
ramp (FHE). 33 
range:data (深度 数据 ) .463~464,465 
images (图 像 )，47~49 
scanners (扫描 仪 ) ,47~49 
raster order (光栅 顺序 ) 、35 
raster-oriented coordinate systems ( 光栅 坐标 系 )，30 
raw images (原始 图 像 )，35 
ray tracing (光线 跟踪 )，541~545 
real image coordinate frame F (实际 图 像 坐标 系 )}，44 
real imagey, composing (实际 图 像 ， 合 成 )，542~545 
recall:definition ( 查 全 率 ， 定 义 )，98 
precision versus ( AE 4:34), 97~98 
receiver operating curve (ROC) ( 受 试 者 操作 曲线 )，97 
receptors,sensitivity of (敏感 性 ,感受 器 的 )，190~191 
recognition:by alignment (识别 ， 比 对 )，337 
character (字符 )，98~100 
eigenspace,by appearance (特征 空间 ， 基 于 表象 )，522 
online (在 线 )，348,350 
structural pattern (结构 模式 )，105 
structural techniques (结构 方法 )，104~106 
in Veggie Vision ( Veggie Vision 系 统 ) 550~551, 参见 
object recognition 
recognition-by-alignment,definition ( 比 对 识别 ， 定 义 )， 
337 
reconstruction:3D object ( 重 构 : 3D 目 标 )，460~468 
surface (表面 )，464 
recursive labeling algorithm (递归 标记 算法 )，57~59 
red-green-blue (RGB) :basis for color ( 红 - 绿 - 蓝 (RGB): 
颜色 基 )，191~193 
conversion to YUV (到 YUV 的 转换 )，197 
encoding, conversion to HSI (hue-saturation-intensity ) 
encoding ( 编码 ， 到 HSI ( 色 度 -饱和 度 -亮度 ) 编码 
的 转换 )，196 
reference frames (参考 坐标 系 )}，42~45,328~329 
reflectance,Lambertian (反射 ， 朗 们 ) 469~471 
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reflection(s) (xf), 338~339 
diffuse (ff), 204~205 
specular ( 镜面 ) 205~206 
specular,definition (gm, X), 206 
region adjacency graphs (RAG) (区 域 邻接 图 )，81~82 
definition (定义 )，81~82 
region properties (区 域 特征 )，73~8] 
regions (区 域 )，377 
boundary coding representing (边界 编码 表示 }，292~293 
corners ( 角 点 )，320~321 
future (未 来 )，297 
growing (增长 )，289~291 
identifying by contours (408547 Hl), 295~312 
identifying image segmentation 《图 像 分 割 )，280~291 
labeled images representing (标记 图 像 表 示 )，292 
labeled,finding borders of (标记 的 ， 边 界 检 测 )， 
295~297 
overlays representing (覆盖 图 表示 )，292 
past〈 过 去 )，297 
property tables representing (特征 表 表 示 ), 294~295 
quadtrees representing (四 又 树 表示 )，294 
representing (表示 )，291~295 
ribbons (条 带 )，317~320 
tracking existing boundaries of (边界 跟踪 }，295~297 
registration:image (AE, Kig), 327 
of views (视图 }，463~464 
reject class, definition (拒绝 类 别 ， 定 义 ) ，94 
relation, definition (关系 ， 定 义 )，351 
relational constraints, symbolic matching and (相关 约束 ， 
图 符 匹 配 ) 401 
relational description, definition (关系 描述 ， 定 义 )，359 
relational distance,matching (相关 距离 ， 匹 配 ) ，359~363 
relational indexing (相关 索引 )，363~364,508,510,511 参 
见 RIO object recognition system 
relational matching, 2D object recognition via ( 相关 匹配 ， 
2D 目 标识 别 ) 350~364 
relational models:matching (AMA: 匹配 )，504~S13 
view-class (#36), 506~513 
relational similarity measures, object presence and (空间 
关系 度量 ， 目 标 检测 )，240~244 
relative orientation primitive (关系 方向 基 元 )，514 
relaxation:continuous，( 松弛: 连续 )，356~359 
discrete (离散)，354~356,357 
discrete labeling block edges via (离散 松弛 法 标记 模 
块 边缘 )，382 
labeling lines via (松弛 法 线段 标记 )，381~383 
removing:salt-and-pepper noise (去 除 :椒盐 噪声 ) ， 
134~135 


small components (小 成 分 )，135~136 
small regions from images (小 图 像 区 域 )，134~135 
rendering: 3D models (绘制 : 3D 模 型)，540~542 
definition (Æ X), 540 
image-based (基于 图 像 的 )，534 
representation:of 3D models (表示 :3D 模 昏 ) 480~487 
feature vector (特征 向 量 }，100 
features used for (特征 )，98~100 
in iris-scanning system (虹膜 扫描 系统 中 )}，558~560 
mesh models (网 格 模 型 )，472,480,481 
surface-edge-vertex models (表面 - 边 -顶点 模型 )，480 
in Veggie Vision (Veggie Vision 中 ) 550~551 
resolution:definition (分 辨 率 :定义 )，31 
nominal,definition ( 标 称 ， 定 义 )，31 
relating to blur (与 模糊 )，406 
subpixel,definition ( 亚 像 素 级 ， 定 义 )}，31 
resolving power, definition (分 辨 力 ， 定 义 )，406 
restoration, image, definition (恢复 ， 图 像 ， 定 义 )，130 
retrieval:of content-based images (检索 :; 基于 内容 的 图 
像 )，226~250 
image, indexing for content-based with multiple 
distance measures (图 像 ， 基 于 内 容 的 多 距离 视 度 图 
像 索 31)，248 
problems (问题 )，3~4 
RGB (red-blue- green): basis for color (RGB ( 红 - 绿 - 监 ): 
颜色 基 )，191~193 
encoding ,conversion to HSI (hue-saturation-intensity) 
encoding ( 编码， 到 HIS ( 色 度 -饱和 度 -亮度 ) 编码 的 
转换 )，196 
conversion to YUV (到 YUV 的 转换 )，197 
ribbon(s) (条 带 )，317~320,484 
definition (定义 )，318 
detecting straight (检测 直 带 )，319~320 
rigid transformations (刚体 变换 )，331~332 
RIO object recognition system (了 IO 目标 识别 系统 ) ， 
506~513 
features employed by (采用 特征 ) ,507~508,509 
RMSE (root-mean-square error) „definition ( 均 方 根 误 
2B, FEM), 313 
Roberts basis (Robert 基 )，162~163 
Roberts masks (了 Robert 模板 ) 146~147 
robots, vision-guided (机 器 人 ， 视 觉 引 导 ) ,9~10 
ROC (receiver operating curve) ( 受 试 者 操作 曲线 ) 97 
root-mean-square error (RMSE) „definition ( 均 方 根 误 
差 ， 定义 )，313 
rotation: arbitrary (旋转 : 任意 )，418~419 
parameters for camera position ( 摄像 机 位 置 参数 ) ， 
445~449 
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2D (Z4) ,330~331,332~334 

3D (714E) ,415~418 
row-by-row labeling algorithm ( 逐 行 标记 算法 )，59 
run-coded binary images (游程 编码 二 值 图 像 )，37 
run-length encoding,using for connected components 
labeling (游程 编码 ， 连 道成 分 标记 )，62~63 
run-of-signs test (符号 变化 检验 ) ,315 


S 


salt-and pepper noise,removing (椒盐 噪声 ， 去 除 )， 
134~135 
sampling _ring_spacer ( 圆 盘 形 结构 元 ， 把 齿轮 体 稍微 扩 
大 一 点 ) , 68,71 
sampling_ring_width 〈 圆 盘 形 结构 元 ， 把 齿轮 体 扩大 到 
内 人 尖 部 分 ) ,68,71 
satellite images (卫星 图 像 )，8~9 
saturation ( 饱和 度 ) 参见 HSU 
intensity) scaled Euclidean distance, definition, 103 
scaling: perspective (缩放 : 32741), 385,386 
2D (二 维 ) ,329~330, 332~334 
3D (一 维 ) ,415 
scanners, range (扫描 仪 ， 距 离 ) ,47~49 
scattering (散射 ) ,27 
scene change, definition (场景 变换 ， 定义 }，272 
SE (synthetic environment) (合成 环境 )，、535, 参见 
visual environment (VE) 
searching, faster (搜索 ， 快 速 )，521~522 
second moment: about axis (本 阶 矩 : 4h), 80 
axis with least (最 小 轴 )，81 
second-order: column moment (二 阶 ;: A), 77 
mixed moment (A), 77 
row moment (474%), 77 
segmentation: color (分 割 : 颜色 )，201~202,322~324 
image (图 像 }，279~325 
using motion coherence (运动 一 致 性 分 割 )，321~324 
texture (纹理 )，223~224 
segmenting: curves via fitting (E: 曲线 拟 合 )，317 
video sequences (视频 序列 ) ，273~274 
segments: finding straight line (线段 : 检测 直线 ) ， 
304~309 
models fitted to ( 拟 合 模型 ) 312~317 
self-occluding surface ( 自 遮 挡 表 面 ) 373 
sensiny: illuminated objects ( 感 测 被 照射 物体 ) , 189 
light (光线 ) , 21~22 
sensing devices, virtual reality (VR) systems (感知 设备 ， 
虚拟 现实 系统 )，539~540 
sensor/transducer (传感器 /变换 器 ) 94 
sensors (传感器 ) 45~49 


( hue-saturation- 


LIDAR (light detection and range) ( 光 检 测 与 测 距 ) ， 
47~48 
multispectral (#i#), 45~46 
SFS (shape from shading) (从 明暗 恢复 形状 )，388 
shading ( 明暗 分 析 )，187~211,203~209 
computing shape from (从 明暗 计算 形状 ) 468~472 
human perception using (基于 明暗 信息 的 人 类 感 
知 ) ,208~209 
interpreting shape from (从 明了 瞳 解释 形状 ) ,388 
Phong model (phong 模 型 ) 208 
shadows (阴影 )，393 
shape(s):computing from shading (形状 从 明暗 计算 )， 
468~472 
histograms (直方 图 )，236~237 
interpreting from boundaries (从 边界 恢复 )，391~392 
interpreting from shading (从 明暗 恢复 )，388 
interpreting from texture (从 纹理 恢复 )，388~391 
similarity measures ( 相似 性 度量 )，235~240 
used in Veggie Vision (Veggie Vision 使 用 )，553 
shape-from-shading,definition ( 从 明 瞳 恢复 形状 ， 定义)， 
469 
shear ( 切 变 ) ,338 
Shi’s graph-partitioning clustering technique (Shi 的 图 分 
割 聚 类 技术 ) 286~289 
shift theorem ( 移 位 定理 )，183~184 
shot change,definition (镜头 切换 、 定 义 )，272 
signal level (信号 级 ) ,516 
signals:differencing 1D (信和 号: 1D 信和 号 差分 )，141~144 
representing as combination of basis signals (表示 为 基 信 
号 的 组 合 )，160~161 
television,YIO and YUV for (电视 ，YIO 和 YUYV )， 
197~198 
similarity: color (相似 性 : 颜色 )，231~233 
relational ( 关系)，240~244 
shape (形状 )，235~240 
texture 纹理) 233~235 
sinusoids, analysis of spatial frequency using (正弦 波 ， 
空间 频率 分 析 )，172~184 
size,used in Veggie Vision (尺寸 ，Veggie Vision 使 用 )， 
553 
sketch matching ( 简 图 匹配 )，238~240 
slant,definition (俯仰 角 ， 定 义 )，389 
small components,removing (小 成 分 ， 去 除 )，135~136 
small image regions,removing (小 图 像 区 域 ， 去 除 )， 
134~135 
smooth object alignment (光滑 目标 比 对 ) ,501~504 
smoothing: Gaussian (平滑 高 斯 )，156 
image ( RHR), 136~137 
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smoothing masks ( 平 请 模板 )，144,167~169 
properties of (特性 ) 144 
snakes (KE}Z), 489~492 
Sobel masks (Sobel#i#g), 146,147 
sonification,definition (IBF AR. #32). 539 
space-carving 《空间 切割 )，464~467 
spatial constraints,integrating (ER, A), 472 
spatial frequency, analysis of using sinusoids (空间 频率 ， 
TEIZ H), 172~184 
spatial indexing (空间 索引 )，247-48 
spatial measurement, image quantization and (空间 度量 ， 
图 像 量化 与 )，31-~35 
spatia] quantization effects (空间 三 化 效果 )，33 
spatial relationships (空间 关系 ) 242~244 
spatio-temporal gradient magnitude (时 空 梯度 幅 值 ) ， 
321 
specular reflection (镜面 反射 )，205~206 
definition (定义 )，206 
spin images ( 自 旋 图 像 }，498,499,500 
stability primitive (稳定 性 基 元 )，514 
standard deviation (标准 差 )，102 
of radial distance ( 径 向 距离 )，75 
standard indexes (标准 索引 )，244~247 
statistical interpretation of error (误差 的 统计 解释 )， 
315~316 
stereo:acquisition system (了 立体: 数据 获取 )，461~463 
configuration (结构 )，411~413 
depth perception from ( 立体 视觉 求 这 度 )，397~403 
displays ( 显示 )、399~400 
photometric (光度 )，471~472 


pare 


vision, establishing correspondences in (视觉 ， 建 立 对 


应 关系 )，400~403 
stereoscopic display devices ( 亦 体 显示 设备 ) 538~539 
sticks (##4%) ,504~506 
stiffness (硬度 ) ,494~495 
still photos, JPEG (Joint Photographic Experts Group) 
format (静止 图 像 ，JPEG 格 式 )，38~39 
storing video sequences (存储 视频 序列 ) 277 
straight lines, finding segments of ( 直线， 检测 直线 段 ) ， 
304~309 
straight ribbons,detecting ( H#, #7), 319~320 
stretching (扩展 )，130~131 

contrast, definition ( 对比度， 定义 )，132 
strobe light,use of ( 闪光灯， 使 用 ) .41~42 
strongback (#8) ,492 
structural pattern recognition (结构 模式 识别 )，105 
structural techniques, recognition (结构 方法 ， 识 别 )， 
104~106 


e žl 


structured light,using (结构 光 ， 用 ) ,42.437~439 
structure (s):corners (结构 : 角 点 )，320~321 
identifying higher-level (识别 更 高 层 )，317~321 
perceiving from motion (从 运动 恢复 结构 ) ,472~475 
ribbons (条 带 )，317~320 
3D,from 2D images (从 一 维 图 像 到 一 维 结构 ) ,42 
union-find (jf-#), 59~60 
structuring elements, binary morphology (结构 元 ， 一 值 
形态 学 )，63~65,68~71 
subpixel resolution,definition ( 亚 像 素 分 辨 率 ， 定 义 )， 
31 
subtraction, image (4HIK, PAR), 12,253~254 
superquadrics (x), 486~487 
surface-edge-vertex models (表面 - 边 -顶点 模型 )， 
480~483 
surface reconstruction (表面 重 构 )，464 
surfaces, self-occluding (表面 ， 自 遮挡 )，373 
surveillance (监视 )，253 
symbolic matching,relational constraints and (图 符 匹配 ， 
相关 约束 和 )，401 
Synthetic environment (SE) ,definition (合成 环境 ， 定 
义 )，535. 参 见 visual environment (VE) 
synthetic imagery,composing ( 合成 图 像 ， 融 
合 ) ,542~545 
system error, evaluating (系统 错误 估计)，96 


T 


T-junctions (Ti44##), 377,384 
Tag Image File Format (TIFF) (标记 图 像 文件 格式 )，38 
teleoperation ( 遥 操 作 ) ,533~535 
definition (432), 535 
television signals,YIQ and YUV for (电视 信号 ，YIO 和 
YUV), 197~198 
temporal redundancy (时 间 宛 余 )、40 
tests,run-of-signs (检验 、 符 号 变化 ) ,315 
tetrahedral elements (由 面体 元 素 ) ,494~495 
texels (纹理 素 )，213 
texture described based on ( # TX M $ WG 
wR) ,214~215 
text applications ( 文本 应 用 )，8 
texture (纹理 )，212~225 
description vector (描述 向 量 )，233~235 
energy (能 量 )，220~212,224 
histograms ( # E). 235 
interpreting shape from (从 纹理 恢复 形状 )，388~391 
measuring by autocorrelation and power spectrum ( É 
相关 和 功率 谱 度量 )，221~223 
measuring by binary partition (一 值 分 解 度量 ) 217 
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measuring by co-occurrence matrices and features ( 共 
Ae ERE RUS TIE Ek). 217~220 
measuring by edge density and direction 
方向 度量 )，215~217 

measuring by texture energy (纹理 能 量度 量 ) 
220~221,224 


(边缘 密度 和 


quantitative measures of ( 定 旦 纹理 测度 )，21S~223 
segmentation (分 割 )，223~224 
similarity measures (相似 性 度量 )，233~235 


(统计 方法 )，214 
structural approach (结构 方法 )，213 
texel-based descriptions of (基于 纹理 素 的 描述 ) 214~215 
used in Veggie Vision (Veggie Vision 使 用 )，552-553 
texture gradient (纹理 梯度 ) 42,385~387 
definition (4X), 387 
texture mapping (纹理 映射 )， 
definition (4232), 542 
texturing, view-based (纹理 化 ， 基 十 视图 )，543~545 
thematic images (主题 图 像 )，30,210 
(EHR: 卷 积 )，182~183 


statistical approach 


542~545 


theorems: convolution 
shift ( 移 位 )，183 

thin lens equation ( 湾 透 镜 方 程 ) .403~406 

three-dimensional (3D) cues, in 2D images 

二 维 图 像 )，383~388% 

three-dimensional (3D) images: interpreting from 

boundaries ( 维 图 像 : 边界 解释 }，391~392 
interpreting from shading ( 明暗 解释 ) ,388 
interpreting from texture (纹理 解释 )，388~391 

点 解释 ) ,392 


interpreting from vanishing points ( 消 隐 点 


(二 维 线索 ， 


labeling line drawings used to portray (线条 图 标记 )， 
377~383 
perceiving from 2D images ( 2D 图 像 中 的 3D 信 
息 ) ,371~409 
three-dimensional (3D) models:alignment,3D-3D (一 维 
模型 : 比 对 ，3D-3D ), 496~498 


alignment,2D-3D ( 比 对 ，2D-3D)，498~501 
balloon ( 气球) ,493~494 
generalized-cylinder (广义 阅 柱 体 )，483~484 


human body ( 人体)，485 

human heart (人 体 心 脏 ) ,494~495 
matching and (匹配 }，479~526 
mesh (网 格 )，472,480,481 
actrees (/\ MAY), 484~486 
physics-based and deformable ( 物理 学 和 可 变形 ) 
489~495 

relational (KAM), 504~506 
绘制 )，540~542 
representation methods (表示 方法 )， 


rendering ( 
480~487 


superquadrics ( 超 二 次 )，486~487 
( 表 而 - 边 - 顶 点 )，480~483 
(实际 3D 模 型 ， 视 类 3D 


surface-edge-vertex 

true versus view-class models ( 

模型 ) ,488~489. 2 Wi models 
three-dimensional (3D) objects: recognition by appearance 
( 三维 目标 : 基于 表象 的 识别 )，516~523 

reconstruction ( 重 构 )，460~468 

RIO object recognition system (RIO 目标 识别 系统 

506~513 
three-dimensional (3D) points, computing using 
multiple cameras {多 摄像 机 3D 点 计算 )，428~430 
three-dimensional (3D) sensing, object pose computation 
and (3D 感 知 与 目标 位 姿 计 算 ) ,410~478 


three-dimensional py structure, from 2D images (从 


二 维 图 像 到 二 维 结 
three-dimensional oy -3D alignment (3D-3D 比 对 )， 
496~498 
three-dimensional (3D) :affine transformations (一 维 : 
仿 射 变换 )，413~421 
classifying 3D object recognition (3D 目 标识 别 分 
类 ) ,495~496 
object recognition paradigms (目标 识别 范例 ) ,495~523 


pose from 2D-3D point correspondences (2D-3D 点 对 

应 求 位 姿 ) ,455-456 
threshold: above (RÉE: 

below (下 )，83 

inside (内 )，83 

outside (9p), 83 
threshold values { 国 值 ) 24 
( 国 值 化 : Aah). 


I), 83 


eee egg 85~89 
dynamic ( 动态 )， 
gray-scale images (人 ,83~89 
knowledge-based (基于 知识 )，89 
knowledge-directed (面向 知识 )，285 
TIF format (TIF 格式) , 参见 TIFF 
TIFF (Tag Image File Format) (标记 图 像 文件 格式 )，38 
tilt,definition (倾斜 角 , 定 义 )，389 
tip_spacing (HABA. HESS ARR RH 
42) ,68,71 
tracking, integrated (跟踪 ， 集 成 ) ,271~272 
training images, basis images for ( 训练 图 像 ， 基 图 像 )， 
518~519 
trajectories: aggregating motion trajectories ( 轨迹， 运动 
轨迹 聚 类 ) ,321~324 
computing (H3), 265~272 
trajectory of i, definition (i 的 轨迹 ， 定 义 )，267 
transformation (s) :2D (变换 : 2D), 327 
3D affine (3D 仿 射 )，338~341,413~421 
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alignment via transformation calculus (基于 变换 的 比 
对 ) .419~421 
computing Tr=(RT} (计算 Tr={RT})，、458~459 
linear (线性 )，329~340 
from model features to image features using local- 
feature-focus method (用 局 部 特征 焦点 法 寻找 从 模型 
特征 到 图 像 特征 的 变换 ) ,343 
perspective transformation matrix (透视 变换 矩阵 )， 
423~426 
using pose clustering ( Fl] FARE), 344 
rigid 《刚性 )，331~332 
transform (s) :Fourier (变换 : ($E), 177,179~181 
orthogonal and orthormal (正人 交 和 标准 正 交 )，331~332 
translation:of binary images, definition 《平移 ,二 值 图 像 ， 
定义 )，66 
parameters for camera position (摄像 机 位 置 参数 )， 
445~449 
2D (二 维 ) ,332~334 
3D (二 维 ) ,415 
tree indexes:B+ ( 树 索 3|: Bt), 245~247 
K-d (K-d 树 )， 247 
R- (R- 树 )，247-48 参 见 triangle-tree 
trees 参 见 binary decision trees: decision trees; definition 
trees; interpretation trees; octrees; quadtrees; tree indexes; 
triangle-tree 
triangle-tree ( 一 又 树 ) ,248 
triangles,aligning (一 角形 ， 比 对 )，419~421 
triangulation (一 角 测 量 ) 48 
TRIBORS object recognition system (TRIBORS 目 标识 
别 系 统 )，499~501 
trichromatic encoding (三 基色 编码 ) ,191~193 
triplets ( 元 组 ) ，499-~501 
true 3D models, versus view-class models (实际 3D 模 型 ， 
视 类 模型 ) ,488~489 
Tsai calibration method (Tsai 标 定 方法 ) ,444~453 
two-class problems 〈 二 类 问题 ) 96~97 
two-dimensional (2D) images (2D 图 像 )，21 
difference operators for ( 差分 算 子 ) 144~149 
motion from sequences of ( 从 2D 图 像 序列 求 运动 )， 
251~278 
perceiving 3D images from (2D 图 像 中 的 3D 信 息 )， 
371~409 
3D cues in (3D 线 索 )，383~388 
3D structure from ( 一 维 结构 ) ,42 
types of ( 类 型 ) 29-31 
two-dimensional (2D) models, 2D-3D alignment (2D 模 
型 ，2D-3D 比 对 ) , 498~S01 


two-dimensional (2D) object recognition via relational 


matching (相关 匹配 法 2D 目 标识 别 )，350~364 
two-dimensional (2D) picture functions ( 二 维 图 像 函 数 ) ， 
175~179 
two-dimensions (2D) transformation,definition (二 维 变 
Mm, BM), 327 
two-dimensions (2D) 
326~370 

pose from 2-D and 3D point correspondences (2D-3D 

AARLE) ,455~456 

registration of data (数据 配 准 )，326~328 


: matching in (二 维 : 匹配 )， 


U 


union-find algorithms (并 查 算法 ) 59 
union-find structure (并 查 结构 )，59~60 
union procedure (合并 过 程 ) ,59~60 


V 


vanishing point (s) ( 消 隐 点 )，42,392 
VE (visual environment) (虚拟 坏 境 ) 535,538,539 
vector space (向 量 空 间 )，160, 162 
of all signals (信号 )，158~160 
definitions {定义 )，159 
vector (s) :feature (向 量 : 特征 )，100 
motion (运动 )，254~265,321~324 
motion, deriving for interesting points (运动 ， 计 算 兴 
趣 点 的 运动 向 量 )，260 
texture description (纹理 描述 )，233~235 
Veggie Vision (Veggie Vision 系 统 ) ,548~554 
application domain and requirements (应 用 场合 和 要 
求 )，549~550 
computing features (计算 特征 )，、552~553 
hardware components (人 硬件 组 成 )，550 
identification procedure 《识别 过 程 )，551 
obtaining images of produce (获取 商品 图 像 )，551~552 
performance (性 能 分 析 )，554 
representation and recognition (表示 与 识别 )， 
550~551 
supervised learning on (监督 学 习 )，553~554 
system design (系统 设计 )}，550~551 
verification: definition (验证 : 定义 )，93 
and optimization of pose (位 姿 最 优化 ) ,460 
vertex,surface-edge-vertex models (顶点 ， 表 而 - 边 -顶点 
模型 )，480~483 
video: cameras (视频 : 摄像 机 )，26 
detecting significant changes in (检测 视频 显著 变化 )， 
272~277 
MPEG (Motion Picture Experts Group) compression 
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of (MPEG 压 缩 ) 261~262 
MPEG format for (MPEG 格 式 )，39~40 
segmenting sequences (序列 分 割 )，273~274 
storing sequences of (存储 视频 子 序列 )，277 
view-based texturing (基于 视图 的 纹理 化 )，543~545 
view-class models:relational ( 视 类 模型 : HHA), 
506~513 
versus true 3D models 《实际 3D 模 型 ) 488~489 
view classes (72K), 488 
virtual lines: cues from (虚拟 直线 : A), 393~394 
definition (732), 394 
virtual reality:definition (虚拟 现实 : 定义 )，535 
devices (设备 )，535~539 
fishtank (fat), 539 
virtual reality (VR) systems ( 虚拟 现实 系统 ) 527~547 
applications {应 用 }，529~530 
architectural walkthrough (建筑 漫游 )，529 
augmented reality (增强 现实 )，530~532 
dextrous virtual work (虚拟 灵巧 手术 )，537~538 
features (特征 )，528~529 
flight simulation (飞行 仿真 )，529 
haptic sense and (触觉 )，540 
HCI and psychological issues ( 人 机 交互 和 心理 问题 )， 
546 
head-mounted displays (HMDs) (ARRENA), 
§30,535~537 
interactive segmentation of anatomical structure 《解剖 
组 织 的 交互 式 分 割 )，529 
motion in (运动 觉 ) 540 
sensing devices (感知 设备 }，539~540 
stereoscopic display devices (立体 显示 设备 )， 
538~539 
teleoperation (j2#2(E), 533~535 
visual output (视觉 输出 ) ,539 
vision,stereo (视觉 ， 立 体 视觉 )，397~403 
visual environment (VE) (虚拟 环境 )，535,538,539 
visual event (视觉 事件 )，489 
visual output, virtual reality (VR) systems (视觉 输出 ， 
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虚拟 现实 系统 )，539 

Voronoi polygons (Voronoi 多 边 形 )，214~215 

voxels ( 体 素 )，485 

VR (virtual reality) systems (虚拟 现实 系统 )， 
527~547 


W 


warp, affine (变形 ， 仿 射 )，334~335 

warping: images (457%: 图 像 )，12 
nonlinear ( 非 线 性 ) 364~368 

wavelets (小 被 )，182 

weak perspective projections ( 弱 透 视 投影 仪 )， 

weights ( 权 ) ,54 

white light,definition (Ht, #32), 189 

wipe,definition (#828, €X), 272~273 

wire-frame models ( 线 框 模型 ) 480 

within-group variance (组 内 方差 )，86~88 

world coordinate frame W (世界 坐标 系 W)，44 

warp-around ( 逆 变 )，28 


426~428 


X 
X-ray devices (X 射 线 设备 )，46~47 
Y 


YIQ, encoding for television signals (YIQ, 电视 信号 编 
fi), 197~198 

YUV:conversion from RGB (red-blue-green) to, 197 
(YUV: RGB ( 红 - 绿 - 蓝 ) 到 YUV 的 转换 )，197 
encoding for television signals (电视 信号 编码 ) ， 
197~198 


z-buffer (Z 缓 存 ) ,542 

zero crossings ( 零 灾 叉 ) 143,144,154,155 
zoom,camera,definition (变焦 ， 摄 像 机 ， 定 义 )，272 
zooming (变焦 )，254~255, 274~275 


